大數據離線分析

大數據離線分析

基本介紹

  • 書名:大數據離線分析
  • 作者:傅德謙、趙向兵、張林濤、劉鳴濤
  • ISBN:9787302483298
  • 定價:35元
  • 出版社:清華大學出版社 
  • 出版時間:2017.08.01
基本信息,內容簡介,目錄,

    基本信息

    大數據離線分析
    作者:傅德謙、趙向兵、張林濤、劉鳴濤
    定價:35元
    印次:1-1 ISBN:9787302483298

    出版日期:2017.08.01
    印刷日期:2017.08.23

      內容簡介

      本書基於開源Hadoop大數據生態圈的主流離線分析工具Hive和Pig,通過技術講解和案例實戰相結合的方式,介紹了海量數據離線分析的技術方法。本書內容主要包括Hive資料庫表、基於HiveQL的常規操作、視圖、索引和Pig等數據處理分析和基礎工具知識,Hive函式、Pig Latin編程、ETL工具Sqoop和工作流引擎Oozie等相關高級技術,以及實際項目案例。

      目錄

      緒論001
      第1章走進Hive003
      1.1Hive簡介003
      1.1.1Hive發展史003
      1.1.2體系結構004
      1.2Hive的安裝部署005
      1.2.1安裝配置Hive005
      1.2.2啟動Hive008
      1.3Hive命令009
      1.3.1Hive命令行選項009
      1.3.2CLI命令行界面010
      1.3.3Hive中CLI命令的快速編輯011
      1.3.4Hive中的腳本011
      1.3.5dfs命令的執行013
      1.4數據類型和檔案格式014
      1.4.1基本數據類型014
      1.4.2集合數據類型015
      1.4.3文本檔案數據編碼016
      本章小結018
      習題018
      第2章HiveQL數據定義020
      2.1資料庫的創建與查詢020
      2.2資料庫的修改與刪除021
      2.3創建表022
      2.3.1管理表023
      2.3.2外部表023
      2.3.3查看錶結構024
      2.4修改表025
      2.5刪除表026大數據
      離線分析
      目錄
      2.6分區表027
      2.6.1外部分區表028
      2.6.2自定義表的存儲格式030
      2.6.3增加、修改和刪除分區表031
      2.7桶表031
      本章小結032
      習題033
      第3章HiveQL數據操作034
      3.1數據載入與導出034
      3.1.1數據載入034
      3.1.2數據導出036
      3.2數據查詢037
      3.2.1SELECT...FROM語句037
      3.2.2WHERE語句040
      3.2.3GROUPBY語句與HAVING語句042
      3.2.4JOIN語句043
      3.2.5ORDERBY語句和SORTBY語句046
      3.2.6CLUSTERBY語句047
      3.2.7UNIONALL語句048
      3.3抽樣查詢048
      3.3.1數據塊抽樣049
      3.3.2分桶表的輸入裁剪049
      本章小結051
      習題051
      第4章HiveQL視圖和索引052
      4.1視圖052
      4.1.1創建視圖052
      4.1.2顯示視圖053
      4.1.3刪除視圖054
      4.2索引054
      4.2.1創建索引055
      4.2.2重建索引055
      4.2.3顯示索引056
      4.2.4刪除索引056
      本章小結057
      習題057
      第5章Hive的函式058
      5.1函式簡介058
      5.1.1發現和描述函式058
      5.1.2調用函式059
      5.1.3標準函式059
      5.1.4聚合函式061
      5.1.5表生成函式067
      5.2用戶自定義函式UDF068
      5.3用戶自定義聚合函式UDAF072
      5.4用戶自定義表生成函式UDTF074
      5.5UDF的標註075
      5.5.1定數性標註(deterministic)076
      5.5.2狀態性標註(stateful)076
      5.5.3唯一性標註(distinctLike)076
      本章小結076
      習題077
      第6章認識Pig078
      6.1初識Pig078
      6.1.1Pig是什麼078
      6.1.2Pig的套用場景078
      6.1.3Pig的設計思想079
      6.1.4Pig的發展簡史080
      6.2安裝、運行Pig080
      6.2.1安裝Pig080
      6.2.2運行Pig081
      本章小結082
      習題082
      第7章Pig基礎084
      7.1命令行工具Grunt084
      7.1.1輸入PigLatin腳本084
      7.1.2使用HDFS命令085
      7.1.3控制Pig087
      7.2Pig數據類型088
      7.2.1基本類型088
      7.2.2複雜類型089
      7.2.3NULL值089
      7.2.4類型轉換090
      本章小結092
      習題092
      第8章PigLatin編程093
      8.1PigLatin介紹093
      8.1.1基礎知識093
      8.1.2輸入和輸出094
      8.2關係操作095
      8.2.1foreach語句096
      8.2.2filter語句096
      8.2.3group語句097
      8.2.4order語句097
      8.2.5distinct語句098
      8.2.6join語句098
      8.2.7limit語句098
      8.2.8sample語句099
      8.2.9parallel語句099
      8.3用戶自定義函式UDF101
      8.3.1註冊UDF102
      8.3.2define命令和UDF103
      8.3.3調用Java函式104
      8.4開發工具104
      8.4.1describe104
      8.4.2explain105
      8.4.3illustrate107
      8.4.4Pig統計信息109
      8.4.5M/R作業狀態信息111
      8.4.6調試技巧112
      本章小結113
      習題113
      第9章數據ETL工具Sqoop115
      9.1安裝Sqoop115
      9.2數據導入117
      9.2.1導入實例118
      9.2.2導入數據的使用119
      9.2.3數據導入代碼生成120
      9.3數據導出121
      9.3.1導出實例121
      9.3.2導出和SequenceFile123
      本章小結123
      習題124
      第10章Hadoop工作流引擎Oozie125
      10.1Oozie是什麼125
      10.2Oozie的安裝125
      10.3Oozie的編寫與運行131
      10.3.1Workflow組件131
      10.3.2Coordinator組件133
      10.3.3Bundle組件134
      10.3.4作業的部署與執行134
      10.3.5向作業傳遞參數136
      10.4Oozie控制台136
      10.4.1控制台界面136
      10.4.2獲取作業信息137
      10.5Oozie的高級特性139
      10.5.1自定義OozieWorkflow139
      10.5.2使用OozieJavaAPI141
      本章小結143
      習題143
      第11章離線計算實例145
      11.1微博歷史數據分析145
      11.1.1數據結構145
      11.1.2需求分析146
      11.1.3需求實現146
      11.2電商銷售數據分析160
      11.2.1數據結構160
      11.2.2需求分析161
      11.2.3需求實現161
      本章小結169
      參考文獻

      相關詞條

      熱門詞條

      聯絡我們