數據挖掘核心技術揭秘

圖書簡介

《數據挖掘核心技術揭秘》包括五部分內容。部分（第1~3章）涉及數據挖掘技術的基礎知識，介紹數據挖掘的定義、數據挖掘工具及套用領域，數據挖掘的數學基礎內容，以及海量數據挖掘處理技術。第二部分（第4~5章）分別從聚類技術和離群點挖掘技術闡述聚類在語音區分、新聞分組、銷售策略制定、交通事故預測、欺詐檢測、入侵檢測、異常氣候檢測等方面的套用。第三部分（第6~11章）分別從決策樹、基於實例的學習、支持向量機、貝葉斯學習、人工神經網路、遺傳算法在病情診斷、信用卡欺詐、機械裝備設計、法律案件審理、動物分類、垃圾郵件過濾、手寫文字識別、股票價格預測、人臉識別、音樂生成等方面闡述分類的套用。第四部分（第12章）闡述回歸數據挖掘技術的套用，涉及卡爾曼算法在股票價格預測、GPS定位方面的套用。第五部分（第13章）介紹推薦系統這個典型的數據挖掘套用。附錄總結本書內容，闡述數據挖掘技術的數學本質。

作者簡介

賈雙成，江南大學碩士，現為阿里巴巴高級工程師，擅長於數據編譯、數據挖掘的系統分析和架構設計，研究方向包括幾何算法、數據編譯、數據挖掘算法及套用。
曾發表專利、論文三十餘篇。在研究算法之餘，也喜歡涉獵管理學、哲學、心理學、歷史等領域的知識。
王奇，阿里巴巴工程師，北京航空航天大學碩士，擅長於智慧型交通數據處理、數據挖掘，研究方向包括導航定位、浮動車處理、數據挖掘算法及套用。
曾發表發明專利、論文10餘項或篇，喜歡旅遊，愛好閱讀，廣泛涉獵文學、小說、經濟類書籍。

圖書目錄

前　言
第一部分　基礎知識

第1章　引言2
1.1　數據挖掘的含義2
1.2　數據挖掘的演變過程3
1.3　數據工具簡介4
1.3.1　Hadoop與MapReduce5
1.3.2　Pig語言8
1.3.3　MATLAB編程9
1.3.4　SAS9
1.3.5　WEKA12
1.3.6　R語言編程12
1.4　數據挖掘套用領域13
1.5　小結14
第2章　數學基礎15
2.1　機率統計16
2.1.1　基本概念16
2.1.2　隨機變數及其分布19
2.2　相似度24
2.2.1　期望與方差25

2.2.2　距離27
2.2.3　相關係數31
2.3　矩陣計算34
2.4　最小二乘法39
2.4.1　最小二乘法定義39
2.4.2　回歸40
2.4.3　參數的最小二乘法估計42
第3章　海量數據處理技術46
3.1　索引技術46
3.1.1　資料庫索引46
3.1.2　文本索引49
3.2　海量數據處理技術52
3.2.1　外排序53
3.2.2　分散式處理53
3.2.3　Bloom filter54
3.2.4　常用技巧55
第二部分　聚　類
第4章　聚類58
4.1　套用場景58
4.1.1　語音區分58
4.1.2　新聞分組59
4.1.3　選定銷售策略59
4.1.4　交通事件預測59
4.2　聚類技術60
4.2.1　劃分聚類61
4.2.2　層次聚類67
4.2.3　基於密度的聚類70
4.2.4　基於格線的聚類72
4.3　多元分析72
4.3.1　主成分分析法73
4.3.2　因子分析83
4.3.3　對比分析83
第5章　離群點挖掘技術85
5.1　套用場景85
5.1.1　異常交通事件檢測85
5.1.2　欺詐檢測85
5.1.3　入侵檢測86
5.1.4　異常氣候檢測86
5.2　離群點挖掘技術86
5.2.1　基於統計的離群點挖掘技術87
5.2.2　基於鄰近度的離群點挖掘技術88
5.2.3　基於密度的離群點挖掘技術89
5.2.4　基於聚類的離群點挖掘技術92
5.2.5　高維數據的離群點檢測算法93
第三部分　分　類
第6章　決策樹98
6.1　套用場景98
6.1.1　病情診斷98
6.1.2　信用卡欺詐檢測98
6.2　決策樹技術99
6.2.1　概述99
6.2.2　技術實現100
6.2.3　多分類決策樹104
6.2.4　參考實例106
第7章　基於實例的學習108
7.1　套用場景108
7.1.1　機械裝備的總體設計108
7.1.2　對新的法律案件的推理109
7.1.3　規劃或調度問題109
7.2　K近鄰算法110
7.3　K-D樹111
7.3.1　近鄰的實現：K-D樹111
7.3.2　K-D樹的構建112
7.3.3　K-D樹的最近鄰搜尋算法113
第8章　支持向量機115
8.1　套用場景115
8.1.1　病情分類115
8.1.2　動物分類116
8.2　支持向量機技術116
8.2.1　概述116
8.2.2　技術實現118
8.2.3　核函式122
8.2.4　多類分類器124
第9章　貝葉斯學習126
9.1　套用場景126
9.1.1　垃圾郵件過濾126
9.1.2　手寫文字識別127
9.1.3　拼寫檢查128
9.1.4　分詞128
9.1.5　語音識別129
9.1.6　股票價格預測129
9.1.7　病情診斷129
9.1.8　選定銷售策略130
9.1.9　交通事件預測130
9.2　貝葉斯學習技術131
9.2.1　概述131
9.2.2　技術實現131
9.2.3　參考實例135
第10章　人工神經網路138
10.1　套用場景138
10.1.1　信用卡欺詐檢測138
10.1.2　病情診斷139
10.1.3　足球比賽預測139
10.1.4　圖像姿勢識別139
10.1.5　利用圖像識別的自動駕駛140
10.1.6　人臉識別140
10.1.7　語音分類識別141
10.2　人工神經網路技術142
10.2.1　概述142
10.2.2　技術實現142
10.2.3　參考實例145
第11章　遺傳算法152
11.1　套用場景152
11.1.1　私人定製的電影152
11.1.2　西洋棋學習153
11.1.3　電路設計154
11.1.4　機器人的模擬控制154
11.1.5　函式設計154
11.1.6　唐詩生成器155
11.1.7　音樂生成器155
11.2　遺傳技術155
11.2.1　概述155
11.2.2　技術實現158
11.2.3　參考實例：背包問題166
第四部分　回　歸
第12章　卡爾曼算法170
12.1　套用場景170
12.1.1　股票價格預測170
12.1.2　GPS定位預測171
12.2　卡爾曼技術171
12.2.1　卡爾曼算法定義171
12.2.2　技術實現172
12.2.3　參考實例：GPS定位175
第五部分　應　用
第13章　推薦系統180
13.1　套用場景181
13.1.1　歌曲推薦181
13.1.2　QQ好友圈子的推薦功能182
13.1.3　今日頭條183
13.1.4　淘寶商品推薦184
13.1.5　Netflix電影推薦184
13.1.6　豆瓣FM的推薦185
13.1.7　為用戶定製的廣告185
13.1.8　蘋果APP排名的規則186
13.2　推薦系統技術186
13.2.1　協同過濾187
13.2.2　基於內容的推薦188
13.2.3　推薦系統的缺陷189
13.2.4　潛在因子算法190
13.2.5　參考實例：音樂推薦193
附錄A　數據挖掘技術總結197

數據挖掘核心技術揭秘

基本介紹

圖書簡介

作者簡介

圖書目錄

圖書前言

相關詞條

熱門詞條