mapr集群

設計思想

MapR認為，解決Hadoop的種種問題，要採用以下設計思想：

1）使用分散式的meta server

集中式的meta server可擴展性不好，對應的解決方案就是使用分散式的meta server，讓每個節點都變成meta server。但是這裡要解決的問題是meta server不能占用太多記憶體，要留出足夠的記憶體供M/R 套用來使用。

2）要讓每個Datanode上支持的block數量增加，同時減少block-report的大小。

3）因為記憶體容量總是有限的，所以要減小查找服務的記憶體開銷。

4）服務能夠快速重啟（這樣可以更好的實現HA）。

通過上述方式，MapR期望這種設計能極大的提高Hadoop的擴展能力，比如支持的節點數目從當前2000個左右擴展到10000個以上，系統檔案容量從10-50PB擴展到1-10EB，檔案數量從1.5億擴展到1萬億（1 trillion）左右。同時，系統還需要支持完全的隨機讀寫以及一系列企業套用特性，比如快照，mirror等等。MapR還期望在性能上有所突破，儘可能的榨取硬體的能力，並能對新的硬體技術（固態硬碟，萬兆網卡等）提供支持。

MapR原理介紹

縱觀其實現，整個MapR的核心是其分散式NameNode，在MapR的設計中，分散式的NameNode又被稱作Container，和Hadoop原始設計中的Namenode不一樣的是，Container不僅維護了用戶檔案的meta data，也維護數據塊。每個Container的大小在16GB-32GB之間（這也就意味著一個node上會有很多個container），同一個Container在不同node間有replica。對於用戶來說，Container的概念過於底層，MapR引入了Volume的概念來降低使用用戶門檻和提高系統的靈活性。 MapR Volume的概念和傳統存儲概念意義上的Volume相當類似，用戶不需要直接管理Container，相應的，用戶通過管理volumes來管理Container：用戶可以為每個Volume指定不同的大小限制，replication level等參數。此外，用戶還可以對volume建立snapshot，mirror等。

Container，volume相關的meta data被維護在被稱為CLDB中（container location database）。 CLDB是一個集中式的服務，為此，MapR為CLDB設計了一系列的容錯

採用分散式Namenode的一個必然結果就是要處理大量的分散式事務：用戶有可能同時操作兩個Container。針對這種情況， MapR認為傳統的兩階段提交和基於Quarum 的協定（例如Paxos）都有局限性，他們提出了新的解決方案： MapR lockless transaction。Srivas的講座並沒有過多討論MapR lockless transaction的細節，從有限的幾張PPT裡面，我們還是可以得知一二的：

mapr集群

基本介紹

設計思想

MapR原理介紹

MapR兩大優勢

相關詞條

熱門詞條