Spark SQL核心剖析

作譯者：朱鋒,張韶全,黃明

出版時間：2018-08

千字數：376

版次：01-01

頁數：268

開本：16開裝幀：I S B N ：9787121343148

換版：

經過多年的發展，大數據處理技術逐步成熟。作為業界大數據計算的事實標準，Apache Spark系統已經廣泛套用於各大企業與研究機構，並形成完整的生態系統。Spark系統包含了SQL、GraphX和R等各個子系統以支持不同業務領域的需求。作為傳統關係資料庫/數據倉庫在大數據場景下的解決方案，Spark SQL已經成為了業界的重要選擇方案，同時也成為了Spark開源社區中最為活躍的部分。本書聚焦於Spark SQL系統，對其整體架構、內部各個模組的技術實現機制進行源碼級別的剖析，涉及到SQL編譯、邏輯計畫、物理執行計畫、重要查詢(如Aggregation與Join等)的技術細節。此外，本書內容上還會結合生產環境的海量套用，分享大量真實開發案例與實踐最佳化經驗。

第 1 章 Spark SQL 背景

1.1 大數據與 Spark 系統

1.2 關係模型與 SQL 語言

1.3 Spark SQL 發展歷程

1.4 本章小結

第 2 章 Spark 基礎知識介紹

2.1 RDD 編程模型

2.2 DataFrame 與 Dataset

2.3 本章小結

第 3 章 Spark SQL 執行全過程概述

3.1 從 SQL 到 RDD：一個簡單的案例

3.2 重要概念

3.2.1 InternalRow 體系

3.2.2 TreeNode 體系

3.2.3 Expression 體系

3.3 內部數據類型系統

3.4 本章小結

第 4 章 Spark SQL 編譯器 Parser

4.1 DSL 工具之 ANTLR 簡介

4.1.1 基於 ANTLR 4 的計算器

4.1.2 訪問者模式

4.2 SparkSqlParser 之 AstBuilder

4.3 常見 SQL 生成的抽象語法樹概覽

4.4 本章小結

第 5 章 Spark SQL 邏輯計畫（LogicalPlan）

5.1 Spark SQL 邏輯計畫概述

5.2 LogicalPlan 簡介

5.2.1 QueryPlan 概述

5.2.2 LogicalPlan 基本操作與分類

5.2.3 LeafNode 類型的 LogicalPlan

5.2.4 UnaryNode 類型的 LogicalPlan

5.2.5 BinaryNode 類型的 LogicalPlan

5.2.6 其他類型的 LogicalPlan

Spark SQL核心剖析

相關詞條

熱門詞條