深入理解SPARK：核心思想與源碼分析

內容簡介

《深入理解SPARK：核心思想與源碼分析》一書對Spark1.2.0版本的原始碼進行了全面而深入的分析，旨在為Spark的最佳化、定製和擴展提供原理性的指導。阿里巴巴集團專家鼎力推薦、阿里巴巴資深Java開發和大數據專家撰寫。

本書分為三篇：

準備篇（第1～2章），介紹了Spark的環境搭建、設計理念與基本架構，幫助讀者了解一些背景知識。

核心設計篇（第3～7章），著重講解SparkContext的初始化、存儲體系、任務提交與執行、計算引擎及部署模式的原理和源碼分析。通過這部分的內容，讀者可以通過源碼剖析更加深入理解Spark的核心設計與實現，以便在實際使用中能夠快速解決線上問題並對性能進行調優。

擴展篇（第8～11章），主要講解基於Spark核心的各種擴展及套用，包括SQL處理引擎、Hive處理、流式計算框架Spark Streaming、圖計算框架GraphX、機器學習庫MLlib等內容。通過閱讀這部分內容，讀者可以擴展實際項目中對Spark的套用場景，讓Spark煥發活力。

作者簡介

耿嘉安，10年IT行業相關經驗。就職於阿里巴巴商家業務事業部，任資深Java工程師，專注於開源和大數據領域，目前與小夥伴們基於ODPS構建阿里的大數據商業解決方案——御膳房。在大量的工作實踐中，對J2EE、JVM、Tomcat、Spring、Hadoop、Spark、MySQL、Redis都有深入研究，尤其喜歡剖析開源項目的源碼實現。早期從事J2EE企業級套用開發，對Java相關技術有獨到見解。業餘時間喜歡研究中國古代歷史，古詩詞，旅遊，足球等。

精彩書評

伴隨著網際網路的不斷演進，人類所面臨的數據在體量，產生速度和多樣性方面階躍性發展，隨之而來的是數據計算和處理方式的多樣化，目前越來越多的數據處理鏈路是通過多種計算組合而成，例如批量與流式計算，圖計算，互動式查詢等。而以往幾個獨立計算系統“物理”拼裝組合成的複雜系統在處理這些問題時，往往在成本和效率上產生瓶頸。Spark從疊代計算的數據復用切入，底層一個runtime來支撐多種計算模型，越來越受到業界的重視，社區發展非常迅速。而本書從源碼分析角度深入剖析系統，希望讀者不僅做到知其然，更要知其所以然，對Spark有更加深入的研究。本書作者在相關領域有多年豐富的實踐和套用經驗，相信通過研讀本書必定可以給讀者帶來事半功倍的效果。

——強琦　阿里雲計算平台資深技術專家

這是一本不錯的Spark的入門書籍，完全從工程師的視角出發，從安裝到使用再到高階套用。有些時候甚至有些囉嗦，但這不正是我們讀者需要的么？作者用他專一的一線工程師視角與在阿里面臨的場景結合，寫作的落筆相當接地氣。這是一本難得的工程師參考用書。

深入理解SPARK：核心思想與源碼分析

基本介紹

內容簡介

作者簡介

精彩書評

目錄

相關詞條

熱門詞條