tachyon(Apache開源分散式存儲系統)

Tachyon簡介

Spark平台以分散式記憶體計算的模式達到更高的計算性能，在最近引起了業界的廣泛關注，其開源社區也十分活躍。以百度為例，在百度內部計算平台已經搭建並運行了千台規模的Spark計算集群，百度也通過其BMR的開放雲平台對外提供Spark計算平台服務。然而，分散式記憶體計算的模式也是一柄雙刃劍，在提高性能的同時不得不面對分散式數據存儲所產生的問題，具體問題主要有以下幾個：

當兩個Spark作業需要共享數據時，必須通過寫磁碟操作。比如：作業1要先把生成的數據寫入HDFS，然後作業2再從HDFS把數據讀出來。在此，磁碟的讀寫可能造成性能瓶頸。
由於Spark會利用自身的JVM對數據進行快取，當Spark程式崩潰時，JVM進程退出，所快取數據也隨之丟失，因此在工作重啟時又需要從HDFS把數據再次讀出。
當兩個Spark作業需操作相同的數據時，每個作業的JVM都需要快取一份數據，不但造成資源浪費，也極易引發頻繁的垃圾收集，造成性能的降低。

仔細分析這些問題後，可以確認問題的根源來自於數據存儲，由於計算平台嘗試自行進行存儲管理，以至於Spark不能專注於計算本身，造成整體執行效率的降低。Tachyon的提出就是為了解決這些問題：本質上，Tachyon是個分散式的記憶體檔案系統，它在減輕Spark記憶體壓力的同時賦予了Spark記憶體快速大量數據讀寫的能力。Tachyon把存儲與數據讀寫的功能從Spark中分離，使得Spark更專注在計算的本身，以求通過更細的分工達到更高的執行效率。

圖1: Tachyon的部署

圖1顯示了Tachyon的部署結構。Tachyon被部署在計算平台（Spark，MR）之下以及存儲平台（HDFS， S3）之上，通過全局地隔離計算平台與存儲平台， Tachyon可以有效地解決上文列舉的幾個問題，：

當兩個Spark作業需要共享數據時，無需再通過寫磁碟，而是藉助Tachyon進行記憶體讀寫，從而提高計算效率。
在使用Tachyon對數據進行快取後，即便在Spark程式崩潰JVM進程退出後，所快取數據也不會丟失。這樣，Spark工作重啟時可以直接從Tachyon記憶體讀取數據了。
當兩個Spark作業需要操作相同的數據時，它們可以直接從Tachyon獲取，並不需要各自快取一份數據，從而降低JVM記憶體壓力，減少垃圾收集發生的頻率。

tachyon(Apache開源分散式存儲系統)

基本介紹

Tachyon簡介

Tachyon重要特徵

相關詞條

熱門詞條