Python機器學習:預測分析核心算法

Python機器學習:預測分析核心算法

《Python機器學習:預測分析核心算法》是2018年1月人民郵電出版社出版的圖書,作者是[美]鮑爾斯 。

基本介紹

  • 書名:Python機器學習:預測分析核心算法
  • 作者:[美]鮑爾斯
  • ISBN:9787115433732
  • 頁數:316頁
  • 定價:69元
  • 出版社:人民郵電出版社
  • 出版時間:2018年1月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從算法和Python 語言實現的角度,幫助讀者認識機器學習。本書專注於兩類核心的“算法族”,即懲罰線性回歸和集成方法,並通過代碼實例來展示所討論的算法的使用原則。全書共分為7 章,詳細討論了預測模型的兩類核心算法、預測模型的構建、懲罰線性回歸和集成方法的具體套用和實現。
本書主要針對想提高機器學習技能的Python 開發人員,幫助他們解決拘只恥某一特定的項目或是提升相關的技能。

圖書目錄

第 1 章 關於預測的兩類核心
算法 1
1.1 為什麼這兩類算法如此有用  1
1.2 什麼是懲罰回歸方法  6
1.3 什麼是集成方法  8
1.4 算法的選擇  9
1.5 構建預測模型的流程  11
1.5.1 構造一個機器學習問題 12
1.5.2 特徵提取和特徵工程 14
1.5.3 確定訓練後的模型的性能 15
1.6 各章內容及其依賴關係  15
1.7 小結  17
1.8 參考文獻  17
第 2 章 通過理解數據來了解
問題 19
2.1 “解剖”一個新問題  19
2.1.1 屬性和標籤的不同類型
決定模型的選擇  21
2.1.2 新數據集的注意事項 22
2.2 分類問題:用聲納發現未
爆炸的水雷   23
2.2.1 “ 岩石vs 水雷”數據集的
物理特性  23
2.2.2 “ 岩石vs 水雷”數據集統計
特徵  27
2.2.3 用分位數圖展示異常點 30
2.2.4 類別屬性的統計特徵 32
2.2.5 利用Python Pandas 對“岩石
vs 水雷”數據集進行統計歡淚
分析  32
2.3 對“岩石vs 水雷數據集”屬性的
可視化展示   35
2.3.1 利用平行坐標圖進行可視化
展示  35
2.3.2 屬性和標籤的關係可視化 37
2.3.3 用熱圖(heat map)展示
屬性和標籤的相關性  44
2.3.4 對“岩石vs. 水雷”數據集
探究過程小結  45
2.4 基於因素變數的實數值預測-
鮑魚的年齡   45
2.4.1 回歸問題的平行坐標圖- 鮑魚
問題的變數關係可視化  51
2.4.2 回歸問題如何使用關聯熱
圖-促戒阿鮑魚問題的屬性對關
系的可視化  55
2.5 用實數值屬性預測實數值目標:
評估紅酒口感   57
2.6 多類別分類問題:它屬於哪種
玻璃   63
小結   68
參考文獻   69
第3 章 預測模型的構建:平衡性
能、複雜性以船朽全殼及大數據  71
3.1 基本問題:理解函式逼近  71
3.1.1 使用訓練數據 72
3.1.2 評估預測模型的性能 73
3.2 影響算法選擇及性能的因素——
複雜度以及數據   74
3.2.1 簡單問題和複雜問題的
對比  74
3.2.2 一個簡單模型與複雜模型的
對比  77
3.2.3 影響預測算法性能的因素 80
3.2.4 選擇一個算法:線性或者
非線性  81
3.3 度量預測模型性能  81
3.3.1 不同類型問題的性能評價
指標  82
3.3.2 部署模型的性能模擬 92
3.4 模型與數據的均衡  94
3.4.1 通過權衡問題複雜度、模型
複雜度以及數據集規模來選
擇模型  94
3.4.2 使用前向逐步回歸來控制過
擬合  95
3.4.3 評估並理解你的預測模型 101
3.4.4 通過懲罰回歸係數來控制
過擬合——嶺回歸  103
小結   112
參考文獻   112
第4 章 懲罰線性重艱堡回歸淚頁漏臘模型 113
4.1 為什遙禁拜么懲罰線性回歸方法如此
有效   113
4.1.1 足夠快速地估計係數 114
4.1.2 變數的重要性信息 114
4.1.3 部署時的預測足夠快速 114
4.1.4 性能可靠 114
4.1.5 稀疏解 115
4.1.6 問題本身可能需要線性
模型  115
4.1.7 什麼時候使用集成方法 115
4.2 懲罰線性回歸:對線性回歸進行
正則化以獲得**優性能   115
4.2.1 訓練線性模型:**小化錯誤
以及更多  117
4.2.2 向OLS 公式中添加一個
係數懲罰項  118
4.2.3 其他有用的係數懲罰項:
Manhattan 以及ElasticNet 118
4.2.4 為什麼套索懲罰會導致稀疏的
係數向量  119
4.2.5 ElasticNet 懲罰項包含套索
懲罰項以及嶺懲罰項  120
4.3 求解懲罰線性回歸問題  121
4.3.1 理解**小角度回歸與前向逐步
回歸的關係  121
4.3.2 LARS 如何生成數百個不同
複雜度的模型  125
4.3.3 從數百個LARS 生成結果中
選擇**佳模型  127
4.3.4 使用Glmnet :非常快速
並且通用  133
4.4 基於數值輸入的線性回歸方法的
擴展   140
4.4.1 使用懲罰回歸求解分類
問題  140
4.4.2 求解超過2 種輸出的分類
問題  145
4.4.3 理解基擴展:使用線性方法來
解決非線性問題  145
4.4.4 向線性方法中引入非數值
屬性  148
小結   152
參考文獻   153
第5 章 使用懲罰線性方法來
構建預測模型  155
5.1 懲罰線性回歸的Python 包  155
5.2 多變數回歸:預測紅酒口感  156
5.2.1 構建並測試模型以預測紅酒
口感  157
5.2.2 部署前在整個數據集上進行
訓練  162
5.2.3 基擴展:基於原始屬性擴展
新屬性來改進性能  168
5.3 二分類:使用懲罰線性回歸來
檢測未爆炸的水雷   172
5.3.1 構建部署用的岩石水雷
分類器  183
5.4 多類別分類- 分類犯罪現場的
玻璃樣本   196
小結   201
參考文獻   202
第6 章 集成方法 203
6.1 二元決策樹  203
6.1.1 如何利用二元決策樹進行
預測  205
6.1.2 如何訓練一個二元決策樹 207
6.1.3 決策樹的訓練等同於
分割點的選擇  211
6.1.4 二元決策樹的過擬合 214
6.1.5 針對分類問題和類別特徵
所做的修改  218
6.2 自舉集成:Bagging 算法  219
6.2.1 Bagging 算法是如何
工作的  219
6.2.2 Bagging 算法小結 230
6.3 梯度提升法(Gradient
Boosting)   230
6.3.1 梯度提升法的基本原理 230
6.3.2 獲取梯度提升法的**佳
性能  234
6.3.3 針對多變數問題的梯度
提升法  237
6.3.4 梯度提升方法的小結 241
6.4 隨機森林  241
6.4.1 隨機森林:Bagging 加上隨機
屬性子集  246
6.4.2 隨機森林的性能 246
6.4.3 隨機森林小結 247
6.5 小結  248
6.6 參考文獻  248
第7 章 用Python 構建集成
模型  251
7.1 用Python 集成方法工具包解決
回歸問題   251
7.1.1 構建隨機森林模型來預測
紅酒口感  251
7.1.2 用梯度提升預測紅酒品質 258
7.2 用Bagging 來預測紅酒口感  266
7.3 Python 集成方法引入非數值
屬性   271
7.3.1 對鮑魚性別屬性編碼引入
Python 隨機森林回歸
方法  271
7.3.2 評估性能以及變數編碼的
重要性  274
7.3.3 在梯度提升回歸方法中引入
鮑魚性別屬性  276
7.3.4 梯度提升法的性能評價以及
變數編碼的重要性  279
7.4 用Python 集成方法解決二分類
問題   282
7.4.1 用Python 隨機森林方法探測
未爆炸的水雷  282
7.4.2 構建隨機森林模型探測未
爆炸水雷  283
7.4.3 隨機森林分類器的性能 288
7.4.4 用Python 梯度提升法探測
未爆炸水雷  289
7.4.5 梯度提升法分類器的性能 296
7.5 用Python 集成方法解決多類別
分類問題   300
7.5.1 用隨機森林對玻璃進行
分類  300
7.5.2 處理類不均衡問題 304
7.5.3 用梯度提升法對玻璃進行
分類  306
7.5.4 評估在梯度提升法中使用隨機
森林基學習器的好處  311
7.6 算法比較  313
小結   315
參考文獻   315
小結   68
參考文獻   69
第3 章 預測模型的構建:平衡性
能、複雜性以及大數據  71
3.1 基本問題:理解函式逼近  71
3.1.1 使用訓練數據 72
3.1.2 評估預測模型的性能 73
3.2 影響算法選擇及性能的因素——
複雜度以及數據   74
3.2.1 簡單問題和複雜問題的
對比  74
3.2.2 一個簡單模型與複雜模型的
對比  77
3.2.3 影響預測算法性能的因素 80
3.2.4 選擇一個算法:線性或者
非線性  81
3.3 度量預測模型性能  81
3.3.1 不同類型問題的性能評價
指標  82
3.3.2 部署模型的性能模擬 92
3.4 模型與數據的均衡  94
3.4.1 通過權衡問題複雜度、模型
複雜度以及數據集規模來選
擇模型  94
3.4.2 使用前向逐步回歸來控制過
擬合  95
3.4.3 評估並理解你的預測模型 101
3.4.4 通過懲罰回歸係數來控制
過擬合——嶺回歸  103
小結   112
參考文獻   112
第4 章 懲罰線性回歸模型 113
4.1 為什麼懲罰線性回歸方法如此
有效   113
4.1.1 足夠快速地估計係數 114
4.1.2 變數的重要性信息 114
4.1.3 部署時的預測足夠快速 114
4.1.4 性能可靠 114
4.1.5 稀疏解 115
4.1.6 問題本身可能需要線性
模型  115
4.1.7 什麼時候使用集成方法 115
4.2 懲罰線性回歸:對線性回歸進行
正則化以獲得**優性能   115
4.2.1 訓練線性模型:**小化錯誤
以及更多  117
4.2.2 向OLS 公式中添加一個
係數懲罰項  118
4.2.3 其他有用的係數懲罰項:
Manhattan 以及ElasticNet 118
4.2.4 為什麼套索懲罰會導致稀疏的
係數向量  119
4.2.5 ElasticNet 懲罰項包含套索
懲罰項以及嶺懲罰項  120
4.3 求解懲罰線性回歸問題  121
4.3.1 理解**小角度回歸與前向逐步
回歸的關係  121
4.3.2 LARS 如何生成數百個不同
複雜度的模型  125
4.3.3 從數百個LARS 生成結果中
選擇**佳模型  127
4.3.4 使用Glmnet :非常快速
並且通用  133
4.4 基於數值輸入的線性回歸方法的
擴展   140
4.4.1 使用懲罰回歸求解分類
問題  140
4.4.2 求解超過2 種輸出的分類
問題  145
4.4.3 理解基擴展:使用線性方法來
解決非線性問題  145
4.4.4 向線性方法中引入非數值
屬性  148
小結   152
參考文獻   153
第5 章 使用懲罰線性方法來
構建預測模型  155
5.1 懲罰線性回歸的Python 包  155
5.2 多變數回歸:預測紅酒口感  156
5.2.1 構建並測試模型以預測紅酒
口感  157
5.2.2 部署前在整個數據集上進行
訓練  162
5.2.3 基擴展:基於原始屬性擴展
新屬性來改進性能  168
5.3 二分類:使用懲罰線性回歸來
檢測未爆炸的水雷   172
5.3.1 構建部署用的岩石水雷
分類器  183
5.4 多類別分類- 分類犯罪現場的
玻璃樣本   196
小結   201
參考文獻   202
第6 章 集成方法 203
6.1 二元決策樹  203
6.1.1 如何利用二元決策樹進行
預測  205
6.1.2 如何訓練一個二元決策樹 207
6.1.3 決策樹的訓練等同於
分割點的選擇  211
6.1.4 二元決策樹的過擬合 214
6.1.5 針對分類問題和類別特徵
所做的修改  218
6.2 自舉集成:Bagging 算法  219
6.2.1 Bagging 算法是如何
工作的  219
6.2.2 Bagging 算法小結 230
6.3 梯度提升法(Gradient
Boosting)   230
6.3.1 梯度提升法的基本原理 230
6.3.2 獲取梯度提升法的**佳
性能  234
6.3.3 針對多變數問題的梯度
提升法  237
6.3.4 梯度提升方法的小結 241
6.4 隨機森林  241
6.4.1 隨機森林:Bagging 加上隨機
屬性子集  246
6.4.2 隨機森林的性能 246
6.4.3 隨機森林小結 247
6.5 小結  248
6.6 參考文獻  248
第7 章 用Python 構建集成
模型  251
7.1 用Python 集成方法工具包解決
回歸問題   251
7.1.1 構建隨機森林模型來預測
紅酒口感  251
7.1.2 用梯度提升預測紅酒品質 258
7.2 用Bagging 來預測紅酒口感  266
7.3 Python 集成方法引入非數值
屬性   271
7.3.1 對鮑魚性別屬性編碼引入
Python 隨機森林回歸
方法  271
7.3.2 評估性能以及變數編碼的
重要性  274
7.3.3 在梯度提升回歸方法中引入
鮑魚性別屬性  276
7.3.4 梯度提升法的性能評價以及
變數編碼的重要性  279
7.4 用Python 集成方法解決二分類
問題   282
7.4.1 用Python 隨機森林方法探測
未爆炸的水雷  282
7.4.2 構建隨機森林模型探測未
爆炸水雷  283
7.4.3 隨機森林分類器的性能 288
7.4.4 用Python 梯度提升法探測
未爆炸水雷  289
7.4.5 梯度提升法分類器的性能 296
7.5 用Python 集成方法解決多類別
分類問題   300
7.5.1 用隨機森林對玻璃進行
分類  300
7.5.2 處理類不均衡問題 304
7.5.3 用梯度提升法對玻璃進行
分類  306
7.5.4 評估在梯度提升法中使用隨機
森林基學習器的好處  311
7.6 算法比較  313
小結   315
參考文獻   315

熱門詞條

聯絡我們