Python數據挖掘與機器學習實戰

內容簡介

本書作為數據挖掘和機器學習的讀物，基於真實數據集進行案例實戰，使用Python數據科學庫，從數據預埋辨采處理開始一步步介紹數據建模和數據挖掘的過程。書中主要介紹了數據挖掘的基礎知識、基本工具和實踐方法，通過循序漸進地講解算法，帶領讀者輕鬆踏上數據挖掘之旅。本書採用理論與實踐相結合的方式，呈現了如何使用邏輯回歸進行環境數據檢測，如何使用HMM進行只項料促中文分詞，如何利用卷積神經網路識別雷達剖面圖，如何使用循環神經網路構建聊天機器人，如何使用樸素貝葉斯算法進行破產預測，如何使用DCGAN網路進行人臉生成等。本書也涉及神經網路、線上學習、強化學習、深度學習和大數據處理等內容。

本書以人工智慧主流程式語言Python 3版作為數據分析與挖掘實戰的套用工具，從Pyhton的基礎語法開始，陸續介紹了NumPy數值計算、Pandas數據處理、Matplotlib數據可視化、爬蟲和Sklearn數據挖掘等內容。全書共涵蓋16個常用的數據挖掘算法和機器學習實戰項目。通過學習本書內容，讀者可以掌握數據分析與挖掘的理論知識及實戰技能。

本書內容豐富，講解由淺入深，特別適合對數據挖掘和機器學習算法感興趣的讀者閱讀，也適合需要系統掌握深度學習的開發人員閱讀，還適合Python程式設計師及人工智慧領域的開發人員閱讀。編程愛好者、高校料催師生及培訓機構的學員也可以將本書作為興趣讀物或教材使用。

圖書目錄

第1章機器學習基礎 1

1.1 機器學習概述 2

1.2 機器學習的發展歷程 2

1.3 機器學習分類 3

1.3.1 監督學習 3

1.3.2 無監督學習 3

1.3.3 強化學習 4

1.3.4 深度學習 4

1.4 機器學習的套用 4

1.5 開發機器學習的步驟 7

1.6 Python語言的優勢 8

1.6.1 可執行偽代碼 8

1.6.2 Python語言使用廣泛 8

1.6.3 Python語言特色 8

1.6.4 Python語言的缺點 9

1.7 Python開發工具介紹 9

1.7.1 IDLE簡介 10

1.7.2 IPython簡介 11

1.7.3 PyCharm簡介 11

1.7.4 Jupyter Notebook簡介 12

1.7.5 Anaconda和Spyder簡介 13

1.8 本章小結 15

第2章 Python語言簡介 16

2.1 搭建Python開發環境 16

2.1.1 安裝Anaconda 16

2.1.2 安裝Spyder 18

2.1.3 運行和保存Python程式 19

2.2 Python計記乃和算與說芝籃變數 19

2.2.1 用Python做簡單的計算 20

2.2.2 Python的運算符 20

2.2.3 Python的變數 21

2.3 Python的字元串 22

2.4 Python的列表 23

2.5 Python的元組 25

2.6 Python的字典 27

2.7 網路爬蟲的發展歷史和分類 28

2.7.1 網路爬蟲的發展歷史 28

2.7.2 網路爬蟲的分類 30

2.8 網路爬蟲的原理 30

2.8.1 理論概述 30

2.8.2 爬蟲的工嘗罪放作流程 31

2.9 爬蟲框架介紹 36

2.9.1 Scrapy介紹 36

2.9.2 XPath介紹 39

2.10 網路爬蟲的設計與實現 40

2.10.1 網路爬蟲的總體設計 40

2.10.2 具體實現過程 40

2.10.3 爬蟲結果與分析 45

2.11 本章小結 49

第3章回歸分析 50

3.1 回歸分析概述 50

3.1.1 基本概念 50

3.1.2 可以解決的問題 51

3.1.3 回歸分析的步驟 51

3.2 線性回歸 51

3.2.1 簡單線性回歸分析 51

3.2.2 多元線性回歸分析 52

3.2.3 非線性回歸數據分析 52

3.3 用Python實現一元線性回歸 53

3.4 用Python實現多元線性回歸 56

3.4.1 使用pandas讀取數據 56

3.4.2 分析數據 57

3.4.3 線性回歸模型 58

3.5 基於線性回歸的股票預測 62

3.5.1 數據獲取 62

3.5.2 數據預處理 63

3.5.3 編碼實現 64

3.5.4 結果分析 65

3.6 邏輯回歸 66

3.6.1 構造預測函式 67

3.6.2 構造損失函辨道坑照數J 68

3.6.3 梯度下降法求解最小值 69

3.7 基於邏輯回歸的環境數據檢測 71

3.7.1 數據來源 71

3.7.2 數據處理 72

3.7.3 異常數據分析 72

3.7.4 數據預測 74

3.8 本章小結 76

第4章決策樹與隨機森林 77

4.1 決策樹 77

4.1.1 決策樹的基本原理 77

4.1.2 決策樹的分類 78

4.1.3 決策樹的優缺點 81

4.2 使用決策樹對鳶尾花分類 82

4.2.1 Iris數據集簡介 82

4.2.2 讀取數據 83

4.2.3 鳶尾花類別 83

4.2.4 數據可視化 84

4.2.5 訓練和分類 85

4.2.6 數據集多類分類 86

4.2.7 實驗結果 86

4.3 隨機森林 87

4.3.1 隨機森林的基本原理 87

4.3.2 隨機森林的收斂性 88

4.3.3 隨機森林的OOB估計 89

4.3.4 隨機森林的隨機特徵選取 89

4.3.5 隨機森林的優缺點 90

4.4 葡萄酒數據集的隨機森林分類 91

4.4.1 數據收集 91

4.4.2 相關庫函式簡介 92

4.4.3 數據基本分析 93

4.4.4 使用隨機森林構建模型 97

4.4.5 實驗結果 98

4.5 本章小結 99

第5章支持向量機 100

5.1 SVM的工作原理及分類 100

5.1.1 支持向量機的原理 100

5.1.2 線性可分的支持向量機 101

5.1.3 非線性可分的支持向量機 102

5.2 核函式 103

5.2.1 核函式簡介 103

5.2.2 幾種常見的核函式 104

5.2.3 核函式如何處理非線性數據 104

5.2.4 如何選擇合適的核函式 105

5.3 SVR簡介 106

5.3.1 SVR原理 106

5.3.2 SVR模型 106

5.4 時間序列曲線預測 107

5.4.1 生成訓練數據集 107

5.4.2 運用不同的核函式進行支持向量回歸 108

5.4.3 生成測試數據集 109

5.4.4 預測並生成圖表 110

5.4.5 獲取預測誤差 111

5.4.6 創建數據集 112

5.4.7 選取最優參數 112

5.4.8 預測並生成圖表 112

5.4.9 獲取預測誤差 113

5.5 本章小結 114

第6章隱馬爾可夫模型 115

6.1 隱馬爾可夫模型簡介 115

6.1.1 隱馬爾可夫模型的概念 115

6.1.2 詳例描述 116

6.1.3 HMM流程 117

6.2 Viterbi算法 117

6.3 HMM模型用於中文分詞 119

6.3.1 UI界面 119

6.3.2 數據及其編碼 119

6.3.3 HMM模型 121

6.3.4 實驗結果 122

6.4 本章小結 124

第7章 BP神經網路模型 125

7.1 背景介紹 125

7.2 結構特點 126

7.3 網路模型 126

7.4 人工神經網路簡介 127

7.4.1 神經元 127

7.4.2 單層神經網路 128

7.4.3 雙層神經網路 129

7.4.4 多層神經網路 130

7.5 BP神經網路 131

7.6 通過TensorFlow實現BP神經網路 132

7.7 本章小結 134

第8章卷積神經網路 135

8.1 傳統圖像識別技術 135

8.1.1 圖像預處理 135

8.1.2 圖像特徵提取 136

8.1.3 圖像分類方法 136

8.2 卷積神經網路結構簡介 137

8.2.1 卷積神經網路發展歷程 137

8.2.2 卷積神經網路結構簡介 137

8.3 卷積神經網路的結構及原理 139

8.3.1 卷積層 139

8.3.2 池化層 140

8.3.3 激活函式 142

8.3.4 全連線層 144

8.3.5 反饋運算 144

8.4 卷積神經網路的優點 146

8.5 雷達剖面圖識別模型 148

8.5.1 數據準備 148

8.5.2 構建模型 150

8.6 模型測試分析 157

8.6.1 部署基本模組 157

8.6.2 創建項目結構 157

8.6.3 訓練網路 158

8.6.4 自動化測試 158

8.7 本章小結 160

第9章循環神經網路 161

9.1 自然語言處理 161

9.1.1 自然語言處理概述 161

9.1.2 自然語言處理套用 162

9.2 對話系統 163

9.2.1 對話系統分類 163

9.2.2 聊天機器人分類 164

9.3 基於LSTM結構的循環神經網路 165

9.3.1 循環神經網路 165

9.3.2 通過時間反向傳播 166

9.3.3 長短期記憶網路（LSTM） 169

9.4 Seq2Seq模型 172

9.4.1 Encoder-Decoder框架 173

9.4.2 Attention機制 174

9.5 聊天機器人的程式實現 176

9.5.1 準備數據 176

9.5.2 創建模型 178

9.5.3 訓練模型 179

9.5.4 測試模型 180

9.6 本章小結 181

第10章聚類與集成算法 182

10.1 聚類方法簡介 182

10.1.1 聚類定義 183

10.1.2 聚類要求 183

10.2 聚類算法 184

10.2.1 劃分方法 184

10.2.2 層次方法 184

10.2.3 基於密度的方法 184

10.2.4 基於格線的方法 185

10.2.5 基於模型的方法 185

10.3 K-Means算法 185

10.3.1 K-Means算法概述 185

10.3.2 K-Means算法流程 185

10.3.3 K-Means算法實現 186

10.3.4 實驗結果及分析 188

10.3.5 K-Means算法存在的問題 188

10.4 K-Means++算法 189

10.4.1 K-Means++的基本思想 189

10.4.2 K-Means++的數學描述 190

10.4.3 K-Means++算法流程 190

10.5 K-Means++的實現 191

10.5.1 數據集 191

10.5.2 代碼實現 192

10.5.3 K-Means++實驗結果 193

10.6 Adaboost集成算法的原理 194

10.6.1 Boosting算法的基本原理 194

10.6.2 Adaboost算法介紹 195

10.6.3 Adaboost分類問題的損失函式最佳化 197

10.6.4 Adaboost二元分類問題的算法流程 198

10.6.5 Adaboost回歸問題的算法流程 199

10.6.6 Adaboost算法的正則化 200

10.6.7 Adaboost的優缺點 200

10.7 Adaboost算法實現 201

10.7.1 數據集處理 201

10.7.2 實現過程 201

10.7.3 實驗結果分析 206

10.8 本章小結 208

第11章其他機器學習算法 209

11.1 貝葉斯分類器 210

11.1.1 機率基礎知識 210

11.1.2 貝葉斯決策準則 211

11.1.3 極大似然估計 212

11.2 貝葉斯分類模型 213

11.2.1 樸素貝葉斯分類模型 213

11.2.2 半樸素貝葉斯分類模型 216

11.2.3 貝葉斯網路分類模型 217

11.3 樸素貝葉斯分類器在破產預測中的套用 219

11.3.1 數據集 219

11.3.2 訓練多項式樸素貝葉斯模型 220

11.4 線上學習 222

11.4.1 線性模型的線上學習 222

11.4.2 非線性模型的線上學習 224

11.5 Bandit線上學習算法 225

11.5.1 Bandit算法與推薦系統 226

11.5.2 常用Bandit算法 226

11.6 Bandit算法原理及實現 228

11.7 GAN網路 229

11.7.1 GAN產生的背景 230

11.7.2 模型結構 230

11.7.3 GAN的實現原理 232

11.8 DCGAN網路 236

11.8.1 模型結構 236

11.8.2 反卷積 237

11.9 DCGAN人臉生成 240

11.9.1 實驗準備 240

11.9.2 關鍵模組的實現 240

11.9.3 實驗結果展示 243

11.10 本章小結 245

附錄A 機器學習常見面試題 246

附錄B 數學基礎 257

B.1 常用符號 257

B.2 數學基礎知識 259

B.2.1 線性代數 259

B.2.2 機率論 261

B.2.3 資訊理論 262

參考文獻 264

作者簡介

方巍博士，博士後，副教授，高級工程師，碩士生導師。美國佛羅里達大學訪問學者，中國計算機學會高級會員，ACM會員，中國系統分析師協會（CSAI）顧問團專業顧問，江蘇省計算機學會會員，江蘇省人工智慧學會委員，江蘇省政府採購招標評審專家，江蘇省高新技術企業認定評審專家。負責和參與國家級、省部級科研項目12項。在國內外學術期刊上發表論文20餘篇，其中被SCI和EI檢索15篇。獲國家發明專利授權8項、軟體著作權9項。出版科技圖書2部。

Python數據挖掘與機器學習實戰

基本介紹

內容簡介

圖書目錄

推薦語

作者簡介

推薦語

作者簡介

熱門詞條