高可用性

介紹

計算機的高可用性

計算機系統的可用性用平均無故障時間（MTTF）來度量，即計算機系統平均能夠正常運行多長時間，才發生一次故障。系統的可用性越高，平均無故障時間越長。可維護性用平均維修時間（MTTR）來度量，即系統發生故障後維修和重新恢復正常運行平均花費的時間。系統的可維護性越好，平均維修時間越短。計算機系統的可用性定義為：MTTF/(MTTF+MTTR) * 100%。由此可見，計算機系統的可用性定義為系統保持正常運行時間的百分比。

負載均衡伺服器的高可用性

為了禁止負載均衡伺服器的失效，需要建立一個備份機。主伺服器和備份機上都運行High Availability監控程式，通過傳送諸如“I am alive”這樣的信息來監控對方的運行狀況。當備份機不能在一定的時間內收到這樣的信息時，它就接管主伺服器的服務IP並繼續提供服務；當備份管理器又從主管理器收到“I am alive”這樣的信息時，它就釋放服務IP位址，這樣的主管理器就開始再次進行集群管理的工作了。為在主伺服器失效的情況下系統能正常工作，我們在主、備份機之間實現負載集群系統配置信息的同步與備份，保持二者系統的基本一致。

HA的容錯備援運作過程

自動偵測(Auto-Detect)階段由主機上的軟體通過冗餘偵測線，經由複雜的監聽程式。邏輯判斷，來相互偵測對方運行的情況，所檢查的項目有：主機硬體(CPU和周邊)、主機網路、主機作業系統、資料庫引擎及其它應用程式、主機與磁碟陣列連線。為確保偵測的正確性，而防止錯誤的判斷，可設定安全偵測時間，包括偵測時間間隔，偵測次數以調整安全係數，並且由主機的冗餘通信連線，將所匯集的訊息記錄下來，以供維護參考。

自動切換(Auto-Switch)階段某一主機如果確認對方故障，則正常主機除繼續進行原來的任務，還將依據各種容錯備援模式接管預先設定的備援作業程式，並進行後續的程式及服務。

自動恢復(Auto-Recovery)階段在正常主機代替故障主機工作後，故障主機可離線進行修復工作。在故障主機修復後，透過冗餘通訊線與原正常主機連線，自動切換回修復完成的主機上。整個恢復過程完成由EDI-HA自動完成，亦可依據預先配置，選擇回復動作為半自動或不恢復。

工作方式

（1）主從方式（非對稱方式）

工作原理：主機工作，備機處於監控準備狀況；當主機宕機時，備機接管主機的一切工作，待主機恢復正常後，按使用者的設定以自動或手動方式將服務切換到主機上運行，數據的一致性通過共享存儲系統解決。

（2）雙機雙工方式（互備互援）

工作原理：兩台主機同時運行各自的服務工作且相互監測情況，當任一台主機宕機時，另一台主機立即接管它的一切工作，保證工作實時，套用服務系統的關鍵數據存放在共享存儲系統中。

（3）集群工作方式（多伺服器互備方式）

工作原理：多台主機一起工作，各自運行一個或幾個服務，各為服務定義一個或多個備用主機，當某個主機故障時，運行在其上的服務就可以被其它主機接管。

高可用性

基本介紹

介紹

工作方式

衡量指標

系統的設計

集群系統

相關詞條

熱門詞條