Hadoop MapReduce實戰手冊

這是一本學習Hadoop MapReduce的一站式指南,完整介紹了Hadoop生態體系,包括Hadoop平台安裝、部署、運維等,Hadoop生態系統成員Hive、Pig、HBase、Mahout等。最重要的是,書中包含豐富的示例和多樣的實際套用場景,以一種簡單而直接的方式呈現了90個實戰攻略,並給出一步步的指導。本書從獲取Hadoop並在集群中運行講起,依次介紹了高級HDFS,高級Hadoop MapReduce管理,開發複雜的Hadoop MapReduce應用程式,Hadoop的生態系統,統計分析,搜尋與索引,聚類、推薦和尋找關聯,海量文本數據處理,雲部署等內容。

基本介紹

  • 書名:Hadoop MapReduce實戰手冊
  • 作者:[斯里蘭卡] Srinath Perera,Thilina Gunarathne
  • 譯者楊海玲
  • ISBN:978-7-115-38437-9
  • 定價:49
  • 出版社:人民郵電出版社
目錄
第1章 搭建Hadoop並在集群中運行 1
1.1 簡介 1
1.2 在你的機器上安裝Hadoop 2
1.3 寫WordCountMapReduce示例程式,打包並使用獨立的Hadoop運行它 3
1.4 給WordCount MapReduce程式增加combiner步驟 7
1.5 安裝HDFS 8
1.6 使用HDFS監控UI 11
1.7 HDFS的基本命令行檔案操作 12
1.8 在分散式集群環境中設定Hadoop 14
1.9 在分散式集群環境中運行WordCount程式 18
1.10 使用MapReduce監控UI 20
第2章 HDFS進階 21
2.1 簡介 21
2.2 HDFS基準測試 22
2.3 添加一個新的DataNode 23
2.4 DataNode下架 25
2.5 使用多個磁碟/卷以及限制HDFS的磁碟使用情況 26
2.6 設定HDFS塊大小 27
2.7 設定檔案冗餘因子 28
2.8 使用HDFS的Java API 29
2.9 使用HDFS的C API(libhdfs) 33
2.10 掛載HDFS(Fuse-DFS) 36
2.11 在HDFS中合併檔案 38
第3章 高級Hadoop MapReduce運維 40
3.1 簡介 40
3.2 調優集群部署的Hadoop配置 40
3.3 運行基準測試來驗證Hadoop的安裝 43
3.4 復用Java虛擬機以提高性能 44
3.5 容錯和推測執行 45
3.6 調試腳本—分析任務失敗 46
3.7 設定失敗百分比以及跳過不良記錄 48
3.8 共享用戶的Hadoop集群—使用公平調度器和其他調度器 50
3.9 Hadoop的安全性——整合使用Kerberos 51
3.10 使用Hadoop的工具接口 56
第4章 開發複雜的Hadoop MapReduce應用程式 59
4.1 簡介 59
4.2 選擇合適的Hadoop數據類型 60
4.3 實現自定義的Hadoop Writable數據類型 62
4.4 實現自定義Hadoop key類型 65
4.5 從mapper中輸出不同值類型的數據 68
4.6 為輸入數據格式選擇合適的Hadoop InputFormat 70
4.7 添加新的輸入數據格式的支持—實現自定義的InputFormat 73
4.8 格式化MapReduce計算的結果—使用Hadoop的OutputFormat 76
4.9 Hadoop的中間(map到reduce)數據分區 78
4.10 將共享資源傳播和分發到MapReduce作業的任務中—Hadoop DistributedCache 80
4.11 在Hadoop上使用傳統應用程式—Hadoop Streaming 84
4.12 添加MapReduce作業之間的依賴關係 86
4.13 用於報告自定義指標的Hadoop計數器 88
第5章 Hadoop生態系統 90
5.1 簡介 90
5.2 安裝HBase 91
5.3 使用Java客戶端API隨機存取數據 93
5.4 基於HBase(表輸入/輸出)運行MapReduce作業 95
5.5 安裝Pig 98
5.6 運行第一條Pig命令 99
5.7 使用Pig執行集合操作(join,union)與排序 100
5.8 安裝Hive 102
5.9 使用Hive運行SQL風格的查詢 103
5.10 使用Hive執行join 105
5.11 安裝Mahout 107
5.12 使用Mahout運行K-means 108
5.13 可視化K-means結果 110
第6章 分析 112
6.1 簡介 112
6.2 使用MapReduce的簡單分析 113
6.3 使用MapReduce執行Group-By 116
6.4 使用MapReduce計算頻率分布和排序 119
6.5 使用GNU Plot繪製Hadoop計算結果 121
6.6 使用MapReduce計算直方圖 123
6.7 使用MapReduce計算散點圖 126
6.8 用Hadoop解析複雜的數據集 129
6.9 使用MapReduce連線兩個數據集 133
第7章 搜尋和索引 139
7.1 簡介 139
7.2 使用Hadoop MapReduce生成倒排索引 140
7.3 使用ApacheNutch構建域區域網路絡爬蟲 143
7.4 使用Apache Solr索引和搜尋網路文檔 147
7.5 配置Apache HBase作為ApacheNutch的後端數據存儲 149
7.6 在Hadoop集群上部署Apache HBase 151
7.7 使用Hadoop/HBase集群構建Apache Nutch全網爬蟲服務 153
7.8 用於索引和搜尋的ElasticSearch 156
7.9 生成抓取網頁的內鏈圖 158
第8章 聚類、推薦和關係發現 161
8.1 簡介 161
8.2 基於內容的推薦 162
8.3 層次聚類 167
8.4 對亞馬遜銷售數據集進行聚類操作 170
8.5 基於協同過濾的推薦 173
8.6 使用樸素貝葉斯分類器的分類 176
8.7 使用Adwords平衡算法給廣告分配關鍵字 181
第9章 海量文本數據處理 189
9.1 簡介 189
9.2 使用Hadoop Streaming和Python預處理數據(抽取、清洗和格式轉換) 190
9.3 使用Hadoop Streaming進行數據去重 192
9.4 使用importtsv和批量載入工具把大型數據集載入到ApacheHBase
數據存儲中 194
9.5 創建用於文本數據的TF向量和TF-IDF向量 198
9.6 聚類文本數據 201
9.7 使用隱含狄利克雷分布(LDA)發現主題 203
9.8 使用Mahout的樸素貝葉斯分類器分類檔案 206
第10章 雲端部署——在雲上使用Hadoop 208
10.1 簡介 208
10.2 使用亞馬遜彈性MapReduce運行Hadoop MapReduce計算 209
10.3 使用亞馬遜EC2競價實例來執行EMR作業流以節約開支 212
10.4 使用EMR執行Pig腳本 213
10.5 使用EMR執行Hive腳本 216
10.6 使用命令行界面創建亞馬遜EMR作業流 219
10.7 使用EMR在亞馬遜EC2雲上部署Apache HBase集群 222
10.8 使用EMR引導操作來配置亞馬遜EMR作業的虛擬機 226
10.9 使用Apache Whirr在雲環境中部署Apache Hadoop集群 228
10.10 使用Apache Whirr在雲環境中部署Apache HBase集群 231

相關詞條

熱門詞條

聯絡我們