數據科學概論(2018年中國人民大學出版社出版的圖書)

數據科學概論(2018年中國人民大學出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《數據科學概論》是2018年中國人民大學出版社出版書籍,作者是覃雄派、陳躍國、杜小勇。內容分為按照四大模組,分別是數據科學基礎、數據以及數據上的計算(分析)、數據處理基礎設施/平台和工具、以及大數據的案例和實踐。

基本介紹

  • 中文名:數據科學概論
  • 作者:覃雄派、陳躍國、杜小勇
  • 出版社:中國人民大學出版社
  • 出版時間:2018年1月19日
  • 定價:68 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787300252926 
  • 書號:252926
內容簡介,圖書目錄,第1章,第2章,第3章,第4章,第5章,第6章,第7章,第8章,第9章,第10章,第11章,第12章,第13章,第14章,第15章,第16章,第17章,第18章,作者簡介,

內容簡介

數據科學是一門習項笑戒正在興起的拔檔組學科,國內外各個大學開始開設數據科學課程或類似課程,並且編寫配套教材。教材在內容上按照四大模組進行組織,分別是數據科學基礎、數據以及數據上的計算(分析)、數據處理基礎設施/平台和工具、以及大數據的案例和實踐。

圖書目錄

第1章

數據科學概論祝艱地
1.1數據科學的定義
1.2數據科學的定位
1.3數據科學家
1.4數據科學的基本原則
1.5數據處理流程:時間維度的縱向視角
1.6數據處理系統的架構:系統維度的計算視角
1.7數據的多樣性:數據類型維度的橫向視角
1.8數據價值的挖掘:價值維度的價值提升視角
1.9思考題

第2章

OLTP與數據服務
2.1面向OLTP套用的RDBMS資料庫技術
2.2面向數據服務的NoSQL資料庫技術
2.3 NewSQL資料庫技術
2.4思考題

第3章

OLAP與結構化數據分析
3.1在線上分析處理(OLAP)與結構化數據分析
3.2高性能OLAP系統的關鍵技櫃凶詢寒術
3.3結構化數據分析工具介紹
3.4思考題

第4章

數據清洗與數據集成
4.1數據抽取、轉換與裝載
4.2數據清洗
4.3數據集成
4.4思考題

第5章

數據的深度分析(數據挖掘、機器學習)
5.1機器學習與數據挖掘簡介
5.2主流機器學習與數據挖掘方法
5.3主流數據深度分析工具
5.4思考題

第6章

流數據處理
6.1流數據處理套用
6.2流式處理和批處理的區別
6.3流數據模型
6.4流數據上的查詢實例
6.5流數據處理系統的查詢處理
6.6查詢處理的基礎算法套拜蒸
6.7流數據處理系統
6.8思考題

第7章

文本分析
7.1文本分析的意義
7.2文本分析的任務和方法
7.3文本分析可視化
7.4文本分析軟體和工具
7.5思考題

第8章

社交網路分析
8.1簡介
8.2社交網路分析的套用
8.3社交網路分析方法
8.4軟體
8.5思考題

第9章

語義網與知識圖譜
9.1語義網的基本概念
9.2語義網體系結構
9.3語義網的關鍵技術
9.4知識庫與知識圖譜
9.5思考題

第10章

數據可視化、可視分析與探索式數據分析
10.1什麼是可視化
10.2可視化的強大威力
10.3可視化的一般過程
10.4科學可視化與信息可視化
10.5數據可視化的原則
10.6可視化實例
10.7可視化的挑戰和趨勢
10.8可視分析技術
10.9探索式數據分析
10.10探索式數據分析的作用
10.11探索式數據分析的基本方法
10.12可視化工具介紹
10.13思考題

第11章

雲計算平台
11.1雲計算的概念與特點
11.2雲計算與大數據處理的關係
11.3雲計算類型與典型系統
11.4虛擬化技術與數據中心
11.5主流探汽產品與特點
11.6 Openstack開源虛擬化平台
11.7主流廠商的雲計算產品和服務
11.8思考題

第12章

Hadoop及其生態系統
12.1Hadoop簡介
12.2Hadoop分散式檔案系統
12.3MapReduce工作原理
12.4Hadoop生態系統
12.5Hadoop 2.0版(YARN)
12.6Hadoop 2.0上的互動式查詢引擎Hive on Tez
12.7Hadoop平台上的列存儲技術
12.7.4Parquet檔案格式
12.8思考題

第13章

Spark及其生態系統
13.1簡介
13.2 Hadoop的局限和Spark的誕生
13.3Spark特性總結
13.4Spark生態系統
13.5RDD及其處理
13.6SparkSQL應用程式
13.7Spark套用案例
13.8總結
13.9思考題

第14章

Python與數據科學
14.1Python概述
14.2Python開發環境配置(Setup)
14.3通過一系列實例學習Python
14.4第三方庫和實例
14.5思考題

第15章

評測基準
15.1評測基準概述
15.2功能性評測基準Daytona 100TB Gray Sort
15.3面向OLTP套用的評測基準
15.4面向OLAP套用的評測基準
15.5面向大數據套用的評測基準
15.6思考題

第16章

數據科學案例
16.1Google流感趨勢預測(Google Flu Trends)
16.2Target利用數據分析預測到一個高中女生的懷孕
16.3網際網路輿情監控與管理
16.4投資與信用
16.5IBM Watson計算機與醫療
16.6歐巴馬競選團隊利用大數據
16.7數據科學與科學研究
16.8奧斯卡大獎預測、總統選舉預測、世界盃預測
16.9用戶畫像與精準廣告
16.10自動短文評分
16.11數據產品
16.12其他數據科學舟乃茅案例
16.13思考題

第17章

數據科學實踐
17.1概述
17.2工具和平台介紹
17.3基於規則的交易策略
17.4基於機器學習的交易策略
17.5關於若干專題的討論
17.6思考題

第18章

附錄
18.1參考文獻
18.2專有名詞

作者簡介

覃雄派(1971‒),男,博士,中國人民大學信息學院講師、碩士生導師,目前主要從事高性能資料庫、大數據分析、信息檢索等方面的研究工作,主持1項國家自然科學基金面上項目,參與多項國家“863”計畫、“973”計畫及國家自然科學基金項目,在國內外期刊和會議上發表論文20餘篇。
陳躍國(1978‒),男,博士,中國人民大學信息學院副教授、博士生導師,中國計算機學會高級會員,資料庫專家委員會委員,大數據專家委員會通信委員,Frontiers of Computer Science青年編委,主要研究方向為大數據分析系統和語義搜尋。主持國家自然科學基金項目2項,廣東省科技套用重大專項1項,參與多項國家核高基(核心電子器件、高端通用晶片及基礎軟體產品)、“973”計畫、“863”計畫項目,近年來在SIGMOD、SIGIR、ICDE、AAAI、IEEE TKDE等國際重要期刊和會議上發表論文30餘篇
杜小勇(1963‒),男,博士,中國人民大學信息學院教授,博士生導師,教育部數據工程與知識工程重點實驗室主任,中國計算機學會會士,《大數據》期刊編委會副主任。主要研究方向為智慧型信息檢索、高性能資料庫、知識工程。主持和參與多項國家核高基(核心電子器件、高端通用晶片及基礎軟體產品)、“973”計畫、“863”計畫、國家自然科學基金項目,近年來在SIGMOD、VLDB、AAAI、IEEE TKDE等國際重要期刊和會議上發表論文百餘篇。

第8章

社交網路分析
8.1簡介
8.2社交網路分析的套用
8.3社交網路分析方法
8.4軟體
8.5思考題

第9章

語義網與知識圖譜
9.1語義網的基本概念
9.2語義網體系結構
9.3語義網的關鍵技術
9.4知識庫與知識圖譜
9.5思考題

第10章

數據可視化、可視分析與探索式數據分析
10.1什麼是可視化
10.2可視化的強大威力
10.3可視化的一般過程
10.4科學可視化與信息可視化
10.5數據可視化的原則
10.6可視化實例
10.7可視化的挑戰和趨勢
10.8可視分析技術
10.9探索式數據分析
10.10探索式數據分析的作用
10.11探索式數據分析的基本方法
10.12可視化工具介紹
10.13思考題

第11章

雲計算平台
11.1雲計算的概念與特點
11.2雲計算與大數據處理的關係
11.3雲計算類型與典型系統
11.4虛擬化技術與數據中心
11.5主流產品與特點
11.6 Openstack開源虛擬化平台
11.7主流廠商的雲計算產品和服務
11.8思考題

第12章

Hadoop及其生態系統
12.1Hadoop簡介
12.2Hadoop分散式檔案系統
12.3MapReduce工作原理
12.4Hadoop生態系統
12.5Hadoop 2.0版(YARN)
12.6Hadoop 2.0上的互動式查詢引擎Hive on Tez
12.7Hadoop平台上的列存儲技術
12.7.4Parquet檔案格式
12.8思考題

第13章

Spark及其生態系統
13.1簡介
13.2 Hadoop的局限和Spark的誕生
13.3Spark特性總結
13.4Spark生態系統
13.5RDD及其處理
13.6SparkSQL應用程式
13.7Spark套用案例
13.8總結
13.9思考題

第14章

Python與數據科學
14.1Python概述
14.2Python開發環境配置(Setup)
14.3通過一系列實例學習Python
14.4第三方庫和實例
14.5思考題

第15章

評測基準
15.1評測基準概述
15.2功能性評測基準Daytona 100TB Gray Sort
15.3面向OLTP套用的評測基準
15.4面向OLAP套用的評測基準
15.5面向大數據套用的評測基準
15.6思考題

第16章

數據科學案例
16.1Google流感趨勢預測(Google Flu Trends)
16.2Target利用數據分析預測到一個高中女生的懷孕
16.3網際網路輿情監控與管理
16.4投資與信用
16.5IBM Watson計算機與醫療
16.6歐巴馬競選團隊利用大數據
16.7數據科學與科學研究
16.8奧斯卡大獎預測、總統選舉預測、世界盃預測
16.9用戶畫像與精準廣告
16.10自動短文評分
16.11數據產品
16.12其他數據科學案例
16.13思考題

第17章

數據科學實踐
17.1概述
17.2工具和平台介紹
17.3基於規則的交易策略
17.4基於機器學習的交易策略
17.5關於若干專題的討論
17.6思考題

第18章

附錄
18.1參考文獻
18.2專有名詞

作者簡介

覃雄派(1971‒),男,博士,中國人民大學信息學院講師、碩士生導師,目前主要從事高性能資料庫、大數據分析、信息檢索等方面的研究工作,主持1項國家自然科學基金面上項目,參與多項國家“863”計畫、“973”計畫及國家自然科學基金項目,在國內外期刊和會議上發表論文20餘篇。
陳躍國(1978‒),男,博士,中國人民大學信息學院副教授、博士生導師,中國計算機學會高級會員,資料庫專家委員會委員,大數據專家委員會通信委員,Frontiers of Computer Science青年編委,主要研究方向為大數據分析系統和語義搜尋。主持國家自然科學基金項目2項,廣東省科技套用重大專項1項,參與多項國家核高基(核心電子器件、高端通用晶片及基礎軟體產品)、“973”計畫、“863”計畫項目,近年來在SIGMOD、SIGIR、ICDE、AAAI、IEEE TKDE等國際重要期刊和會議上發表論文30餘篇
杜小勇(1963‒),男,博士,中國人民大學信息學院教授,博士生導師,教育部數據工程與知識工程重點實驗室主任,中國計算機學會會士,《大數據》期刊編委會副主任。主要研究方向為智慧型信息檢索、高性能資料庫、知識工程。主持和參與多項國家核高基(核心電子器件、高端通用晶片及基礎軟體產品)、“973”計畫、“863”計畫、國家自然科學基金項目,近年來在SIGMOD、VLDB、AAAI、IEEE TKDE等國際重要期刊和會議上發表論文百餘篇。

相關詞條

熱門詞條

聯絡我們