大數據技術及行業套用

內容簡介

其中首章簡明地介紹了大數據的基本理論，辨析了相關的重要概念和理念。接下來的三章，從私有平台、虛擬化平台、綜合性平台等層面系統介紹了現有的成熟技術方法。最後七章是本書的重點，依次剖析了大數據技術在圖算法、環境科學、藥物數據聚類、電子商務、社交網路、文本挖掘與情感分析、電力系統控制等領域的具體套用。

作品目錄

第1章大數據相關概念
1.1什麼是大數據？
1.2大數據有多大？
1.3大數據是一種思維方式
1.4大數據思維的套用案例
1.5大數據是如何產生的？
1.6美國和中國的大數據產業生態系統
1.7如何學習大數據技術
本章小結
參考文獻
第2章搭建私有大數據處理平台
2.1FreeBSD作業系統安裝
2.2基礎軟體安裝
2.2.1安裝Java運行環境
2.2.2安裝bash
2.3Hadoop安裝配置
2.3.1系統規劃
2.3.2配置conf/masters、conf/slaves檔案
2.3.3Hadoop安裝
2.4Hadoop開發環境配置
2.4.1編譯Hadoop—eclipse—plugin—1.1.2.jar外掛程式
2.4.2eclipse配置
2.4.3測試
2.5Hadoop升級
2.6Zookeeper安裝
2.6.1在FreeBSD上安裝Zookeeper
2.6.2啟動並測試Zookeeper
2.7HBase安裝配置
2.8FreeBSD上網配置
2.8.1VPN上網配置
2.8.2網頁認證上網配置
2.9配置防毒軟體
本章小結
第3章大數據平台虛擬化解決方案
3.1Ubuntu上安裝Docker
3.1.1Docker簡介
3.1.2Docker安裝
3.1.3Docker鏡像相關命令
3.1.4Docker容器相關命令
3.1.5Dockerfile創建鏡像
3.1.6Docker實現Spark集群
3.1.7Docker集中化Web界面管理平台shipy
3.1.8DockerUI
3.2OpenStack搭建
3.2.1下載工具和鏡像
3.2.2配置網橋
3.2.3安裝fuel
3.2.4安裝OpenStack平台
3.2.5使用OpenStack平台
本章小結
參考文獻
第4章大數據平台解決方案
4.1大數據平台比較
4.2CDH大數據平台搭建
4.2.1ClouderaManager安裝
4.2.2添加服務
4.3HDP大數據平台搭建
4.3.1部署Ambari
4.3.2用Ambari_web部署HDP平台
本章小結
第5章Spark在大數據處理中的套用
5.1Spark集群搭建
5.1.1Scala在Ubuntu下的安裝和配置
5.1.2Spark集群搭建
5.1.3Spark集群啟動測試
5.2Spark—shell統計社交網路中節點的度
5.2.1啟動HDFS和Spark
5.2.2運行Spark—shell
5.2.3統計社交網路中節點的度
5.3SparkGraphX
5.3.1屬性圖
5.3.2圖操作
5.3.3構建圖
5.3.4圖計算相關算法
5.3.5GraphX圖計算實例
本章小結
參考文獻
第6章大數據技術在環境科學中的套用
6.1大氣環境科學的數值模式的介紹
6.1.1氣象模式
6.1.2區域空氣品質模式
6.2高解析度實時觀測的大數據
本章小結
參考文獻
第7章大數據在DrugBank藥物資料庫聚類方面的套用
7.1簡介
7.2開發環境及程式語言
7.3算法設計
7.3.1算法設計流程
7.3.2相似度的計算
7.4算法實現
7.4.1檔案的解析
7.4.2對靶標、作用酶的分析
7.4.3對分子中原子百分比的處理過程
7.4.4結果的整合
7.4.5最終結果展示
本章小結
參考文獻
第8章大數據在電子商務數據分析中的套用
8.1研究現狀
8.2相關技術及概念
8.2.1網路爬蟲
8.2.2HtmlUnit工具包
8.2.3Mahout
8.2.4樸素貝葉斯算法
8.2.5文檔向量
8.2.6TF—IDF改進加權
8.2.7中文分詞
8.3需求分析
8.3.1系統功能
8.3.2系統界面
8.4概要設計
8.4.1系統模組設計
8.4.2資料庫設計
8.5詳細設計
8.5.1用戶登錄模組
8.5.2爬蟲管理模組
8.5.3算法管理模組
8.5.4用戶管理模組
8.6系統測試
8.6.1訓練集準備
8.6.2新數據準備
8.6.3訓練模型
8.6.4數據分類
8.6.5分類結果分析
本章小結
參考文獻
第9章大數據技術在社交網路研究中的套用
9.1社區發現研究簡介
9.2社區發現相關研究工作
9.2.1相關工作
9.2.2研究動機
9.3模型與問題的形式化
9.3.1社區森林模型
9.3.2問題形式化
9.4骨幹度算法
9.4.1骨幹度算法框架
9.4.2算法的時間複雜度
9.4.3算法比較
9.5實驗分析
9.5.1數據集
9.5.2一個特定人際關係網路的測試
9.5.3Zachary的空手道俱樂部測試
9.5.4美國大學橄欖球隊
9.5.5安然電子郵件公司數據集
9.5.6DBLP合作網路
9.5.7結論
本章小結
參考文獻
第10章大數據技術在文本挖掘和情感分類中的套用
10.1研究綜述
10.1.1基於產品特徵的觀點挖掘研究
10.1.2產品評論結構化信息抽取方法
10.1.3評論信息分類相關研究方法
10.2評論文本的結構化信息抽取
10.2.1產品特徵抽取
10.2.2基於關聯規則抽取評論的隱式特徵
10.2.3基於監督學習抽取評論的隱式特徵
10.3情感分類研究綜述
10.3.1基於詞典與語言規則進行情感分類
10.3.2觀點挖掘結果歸納
10.4算法評估結果與分析
10.4.1隱式特徵抽取實驗結果及分析
10.4.2篇章粒度情感分類實驗結果及分析
10.4.3語句粒度情感分類實驗結果及分析
本章小結
參考文獻
第11章大數據技術在電力系統中的套用
11.1一種雲可視化機網協調控制回響特性數據挖掘方法
11.1.1技術領域
11.1.2背景技術
11.1.3方案內容
11.2基於電力數據分析的河北南網電力市場化風險對沖方法
11.2.1電網對發電側市場化風險對沖分析
11.2.2電網對用電側市場化風險對沖分析
11.2.3基於方差偏離規律的統計套利對沖方法
本章小結
附錄FreeBSD作業系統安裝

大數據技術及行業套用

基本介紹

內容簡介

作品目錄

相關詞條

熱門詞條