容錯多處理機系統

容錯多處理機系統

多處理機系統是指由兩台以上處理機組成的計算機系統。每個處理機都有各自的控制和運算部件,可獨立地執行程式,而共享公共的主存儲器和外圍設備。處理機之間是通過網路實現通訊的。容錯多處理機系統是指計算機系統內的部件出現允許故障時,多處理系統任然可以正常運行。

基本介紹

  • 中文名:容錯多處理機系統
  • 外文名:Fault-tolerant multiprocessor system
  • 學科:計算機
  • 定義:出現故障系統仍可以運行
  • 有關術語多處理機系統
  • 特點:可靠性高
定義,多處理機系統,容錯方法,冗餘技術,軟體容錯,故障檢測,

定義

容錯多處理機系統包括大量的硬體措施和軟體措施,還包括電源組件,電源組件可以提供不間斷的不被打斷的環境。包容錯誤程式的計算機使用特殊軟體的慣常程式和自我檢查的邏輯程式,將其設計為電路的一部分,用來檢查硬體問題,並可以自動轉換成後備設施。在不涉及計算機系統的情況下,計算機的一些部分可以進行移除,也可以進行修理。容錯多處理機系統具有很高的可靠性和強大信息處理能力,在在惡劣環境中 , 計算機仍能正常運行。容錯多處理機系統實現容錯的途徑:故障檢測技術;故障禁止技術;系統重組技術動態冗餘技術,其中的核心技術為冗餘技術。動態冗餘技術包括重組,恢復,可重組的N倍冗餘,緩慢降級等技術。動態冗餘是通過故障檢測,故障定位及系統恢復來達到容錯的一種技術。由於系統恢復採用某種重組技術,因此系統的冗餘結構將隨故眯情況發生變化,這種技術不防止故障產生差錯,但防止差錯產生失效。

多處理機系統

多處理機系統含兩個以上處理機,在一個作業系統控制下,實現指令、任務的並行處理的計算機系統。整個計算機系統都在統一的作業系統控制下工作,按照多指令流、多數據流的模式實現對作業、任務、程式段的並行處理。在執行時,用一些特殊的指令派生出一些可同時執行的進程(帶有控制塊可獨立執行的程式段),分配給各個處理機並行處理,某處理機不空閒時,一些進程即排隊等待。這樣,多處理機的計算機系統工作效率肯定很高。然而,這種系統的結構則比較複雜,除硬體結構複雜外,還要從軟體系統上,用並行算法、資源分配、進程調度等技術加以處理。

容錯方法

冗餘技術

冗餘技術又稱儲備技術,有時也稱容災備份技術,它是利用系統的並聯模型來提高系統可靠性的一種手段。冗餘技術分為工作冗餘和後備冗餘。工作冗餘:一種兩個或以上的單元並行工作的並聯模型。平時,由各處單元平均負擔工作,因此工作能力有冗餘。後備冗餘:平時只需一個單元工作,另一個單元是冗餘的,用做待機備用。以計算機為例,其伺服器及電源等重要設備,都採用一用二備甚至一用三備的配置。正常工作時,幾台伺服器同時工作,互為備用。電源也是這樣。一旦遇到停電或者機器故障,自動轉到正常設備上繼續運行,確保系統不停機,數據不丟失。

軟體容錯

軟體容錯本身有兩層含義: 一是對軟體自身故障的處理;二是使用軟體對系統中出現的其它故障進行處理。軟體容錯技術大都是針對軟體本身的設計故障提出的, 但套用這些軟體容錯思想對它們有針對性地加以修改後,也可用於對系統的硬體故障進行處理。簡單的冗餘是不夠的, 需要輔以設計和數據表示的多樣性才能達到較好的容錯效果。設計多樣性( Design Diversity) 技術的核心思想是:完成某個功能有多種可能的不同方法, 現將每種可能的方法都實現( 每種實現稱為一個變體), 以儘可能保證至少有一個變體能可靠地運行。既然每種變體的設計思想各不相同, 對於同樣的輸入,不同的變體就可能產生不同的輸出, 這時就需要一種表決機制來判斷哪種輸出是正確的或可接受的。數據多樣性( Data Diversity) 是作為對設計多樣性的補充由 Ammann 和 Knight 提出的。數據多樣性著眼於程式的輸入數據, 與原始輸入數據邏輯等價的“ 重表達”數據都可以作為程式的新輸入數據。以不同表達方式的輸入數據執行相同的程式或程式的變體是數據多樣性技術的核心思想。重配置與重恢 復(Reconfiguration and Rejuve -nation): 是互為補充的軟體容錯技術。軟體重配置允許在動態考慮各種限制因素(如作業系統服務、處理器負載、可用記憶體等) 的情況下使用冗餘的資源對軟體進行實時恢復,是一種事件驅動的即時處理過程。在設計時,需要首先定義好重配置的觸發條件, 然後仔細定義相應條件的具體重配置策略。軟體重恢復是處理由於軟體老化導致軟體暫態故障的一種技術。它會以定時輪詢的方式中止軟體運行,清空其內部狀態並重啟之。這樣,相當於消除了軟體長期運行可能導致的積累錯誤效應。軟體重配置與重恢復的技術特點是適應性強,非常適用於資源受限的環境中。

故障檢測

計算機系統故障檢測包括作業系統、檔案結構、軟體系統特徵等方面的內容,同時還涉及硬體知識,檢查時既要進行動態的通電檢測,又要進行靜態的斷點檢測。作為計算機技術人員,關鍵是在掌握相關知識的前提下,對故障分析有清晰的思路和準確的判斷能力。檢測步驟:1、區分是軟體故障還是硬體故障,當加電啟動時能進行自檢,能顯示自檢後的系統配置清況,則計算機系統的硬體基本上沒有什麼問題,故障的原因是軟體引起的可能性比較大。2、具體確定是作業系統還是套用軟體故障,若是系統軟體故障則可能需要重新安裝作業系統,若是套用軟體故障則應該調整套用軟體安裝3、硬體故障的檢查步驟,若是硬體故障則需要首先分清主機故障還是外部設備故障即從系統到設備,再由設備到部件;由系統到設備是指計算機系統發生故障後要確定主機、鍵盤、顯示器、印表機、硬碟和軟碟機等是哪一個設備出問題。同時要注意關聯部分的故障。

相關詞條

熱門詞條

聯絡我們