實戰大數據

實戰大數據

內容提要

“數據是重要資產”已成為大家的共識,眾多公司爭相分析、挖掘大數據背後的信息財富。本書在這個背景下,對目前大數據及其相關技術的發展進行總結,理論聯繫實踐,既不缺乏理論深度又具有實用價值。

本書共12章,內容包括大數據概念、特點、發展歷史,數據獲取與存儲,數據抽取和清洗,數據提煉,數據的查詢、分析與建模,異構數據採集,文檔的存儲與檢索,異種數據的統一存儲與轉換,基於微博的股票市場預測系統實例,海量視頻檢索系統實例,HDFS雲檔案系統實例。

本書適合大數據技術初學者,大數據從業人員和研究人員,也可以作為高等院校相關專業師生的教學參考手冊。

基本介紹

  • 書名:實戰大數據
  • 作者:不詳
  • 出版社:不詳
  • 出版時間:2013年11月
前言,內容簡要,後續,

前言

隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據目前已經成為IT領域最為流行的辭彙,其實它並不是一個全新的概念。早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,明確提出“數據就是財富”這一觀點,並將大數據熱情地讚頌為“第三次浪潮的華彩樂章”。直到現在,大數據在政府決策部門、行業企業、研究機構等得到了廣泛的套用,並實際創造了價值。
大數據分析相比於傳統的數據倉庫套用,具有數據量大、查詢分析複雜等特點。本書對目前大數據技術的發展進行了總結,試圖講清楚數據獲取,數據結構,數據集成,數據分析、組織、抽取和建模,數據分析結果的呈現等問題,為讀者提供在實踐中解決遇到的大數據問題的思路和方法。

內容簡要

本書分為12章,每章內容概要如下:
第1章從大數據的歷史與發展、大數據的定義、大數據的研究內容、大數據問題在國內外政府、公司和大學的研究現狀等方面進行論述,為這一新興概念勾勒出一個雛形。
第2章介紹了數據獲取與存儲技術的概念以及一些流行的工具與實現。
第3章介紹了數據抽取和清洗。數據抽取作為數據處理的第一步,具有至關重要的作用。數據清洗是構建數據倉庫和知識發現的必要因素。
第4章介紹了大數據提煉價值的關鍵步驟——數據集成,包括各大公司對數據集成技術的定義、用處、發展歷程、分類、數據集成技術的研究現狀、各大公司實現數據集成技術的工具,以及在大數據背景下的數據集成技術的特點等等。
第5章介紹了海量數據的查詢、分析與建模技術。包括數據查詢、分析和建模的各項技術的概念、發展歷史、工具等,使得讀者對於海量數據查詢、分析與建模有更進一步的了解。
第6章介紹了本章將給出一個輿情監控系統的異構數據採集平台部分為實例,介紹OSGi的基本構建方法,並圍繞該異構數據採集平台的設計與實現,對OSGi在構建動態部署的可伸縮的異構數據採集平台中的設計和使用進行介紹。
第7章採用HBase實現海量小型XML文檔的存儲與檢索,結合實際問題背景,對該系統的功能性需求和非功能性需求進行了詳細描述,逐步深入分析,給出系統的概要設計及詳細設計,並給出系統關鍵點的實現。
第8章針對現有一些算法無法處理大規模網路的問題,在隨機遊走算法(Random Movement Strategy)和仿射傳播聚類算法(Affinity Propagation Clustering Algorithm)的基礎上,藉助MapReduce編程模式,將兩種算法遷移到雲平台上,分別給出隨機遊走算法和仿射傳播聚類算法的並行化。
第9章介紹了異種數據源數據的統一存儲與轉換技術。
第10章主要介紹了一種基於微博的股票市場預測系統,並對該系統的套用背景和相關技術做了相應的介紹,分析了系統的需求分析與總體設計思路,最後給出了詳細的設計與實現方案。
第11章主要介紹了一個基於內容的海量視頻檢索系統,該系統運用MapReduce對視頻中運動對象提取的方法進行了改進;使用HBase進行系統中相關數據的存儲;採用一種新型的方法對檢測到的運動對象進行行為識別,並創新性的利用規則組合的方式對複雜行為進行定義與檢索。
第12章全面介紹了一個基於HDFS(Hadoop Distributed File System)的雲檔案系統,為用戶進行數據存儲提供一個實例,實現了面向高速區域網路網路服務的雲計算分散式檔案系統,並提供了網盤套用的主要功能。

後續

本書適合大數據技術初學者,大數據從業人員和研究人員,也可以作為高等院校相關專業師生的教學參考手冊。
本書出版得到清華大學出版社圖格事業部編輯的幫助,在此表示感謝。
編 者
2013年11月

相關詞條

熱門詞條

聯絡我們