可擴展實時數據系統構建原理與最佳實踐

圖書簡介

本書將教你充分利用集群硬體優勢的Lambda架構，以及專門用來捕獲和分析網路規模數據的新工具，來創建這些系統。它將描述一個可擴展的、易於理解大數據系統的方法——可以由小團隊構建並運行。

圖書目錄

第1章　大數據的新範式1

1.1　本書是如何組織的2

1.2　擴展傳統資料庫3

1.2.1　用佇列擴展3

1.2.2　通過資料庫分片進行擴展4

1.2.3　開始處理容錯問題4

1.2.4　損壞問題5

1.2.5　到底是哪裡出錯了5

1.2.6　大數據技術是如何起到幫助作用的5

1.3　NoSQL不是萬能的6

1.4　基本原理6

1.5　大數據系統應有的屬性7

1.5.1　魯棒性和容錯性7

1.5.2　低延遲讀取和更新8

1.5.3　可擴展性8

1.5.4　通用性8

1.5.5　延展性8

1.5.6　即席查詢9

1.5.7　最少維護9

1.5.8　可調試性9

1.6　全增量架構的問題10

1.6.1　操作複雜性10

1.6.2　實現最終一致性的極端複雜性11

1.6.3　缺乏容忍人為錯誤12

1.6.4　全增量架構解決方案與 Lambda架構解決方案13

1.7　Lambda架構14

1.7.1　批處理層15

1.7.2　服務層16

1.7.3　批處理層和服務層滿足幾乎所有屬性16

1.7.4　速度層17

1.8　技術上的最新趨勢19

1.8.1　CPU並不是越來越快20

1.8.2　彈性雲20

1.8.3　大數據充滿活力的開源生態系統20

1.10　總結22

第一部分　批處理層

第2章　大數據的數據模型24

2.1　數據的屬性25

2.1.1　數據是原始的28

2.1.2　數據是不可變的30

2.1.3　數據是永遠真實的33

2.2　基於事實的數據表示模型34

2.2.1　事實的示例及屬性34

2.2.2　基於事實的模型的優勢36

2.3　圖模式39

2.3.1　圖模式的元素39

2.3.2　可實施模式的必要性40

2.5　總結42

第3章　大數據的數據模型：示例44

3.1　為什麼使用序列化框架44

3.2　Apache Thrift45

3.2.1　節點46

3.2.2　邊46

3.2.3　屬性47

3.2.4　把一切組合成數據對象47

3.2.5　模式演變48

3.3　序列化框架的局限性49

3.4　總結50

第4章　批處理層的數據存儲51

4.1　主數據集的存儲需求52

4.2　為批處理層選擇存儲方案53

4.2.1　使用鍵/值存儲主數據集53

可擴展實時數據系統構建原理與最佳實踐

基本介紹

圖書簡介

圖書目錄

相關詞條

熱門詞條