容錯技術

容錯技術是容忍並防範局部錯誤的決策方法。是提高決策可靠性的重要方法之一。所謂容忍錯誤,就是認識到錯誤是客觀存在的,不可避免的,因此,要把主要的精力放在防範錯誤的對策上。其主要內容有:(1)診斷技術,即在最短的時間內,也就是在錯誤還不致於造成重大損失之前,就發現並排除錯誤。(2)錯誤防範技術和錯誤影響弱化技術。(3)冗餘技術,即用功能相近的若干決策方案或措施來代替單一方案,在原方案有效時,其餘方案從表面上看是多餘的,然而一旦原方案失效時,這些“多餘”的方案就可自動依次接替原方案而維持決策實施的正常進行。

基本介紹

  • 中文名:容錯技術
  • 外文名:Fault Tolerant)
  • 定義:利用冗餘硬體交叉檢測操作結果
  • 核心設備:伺服器
容錯技術概況,容錯技術歷史,發展趨勢,

容錯技術概況

容錯FT(Fault Tolerant)技術一般利用冗餘硬體交叉檢測操作結果。隨著處理器速度的加快和價格的下跌而越來越多地轉移到軟體中。未來容錯技術將完全在軟體環境下完成,那時它和高可用性技術之間的差別也就隨之消失了。
區域網路的核心設備是伺服器。用戶不斷從檔案伺服器中大量存取數據,檔案伺服器集中管理系統共享資源。但是如果檔案伺服器或檔案伺服器的硬碟出現故障,數據就會丟失,所以,我們在這裡講解的容錯技術是針對伺服器、伺服器硬碟和供電系統的。
雙重檔案分配表和目錄表技術
硬碟上的檔案分配表和目錄表存放著檔案在硬碟上的位置和檔案大小等信息,如果它們出現故障,數據就會丟失或誤存到其他檔案中。通過提供兩份同樣的檔案分配表和目錄表,把它們存放在不同的位置,一旦某份出現故障,系統將做出提示,從而達到容錯的目的。
快速磁碟檢修技術
這種方法是在把數據寫入硬碟後,馬上從硬碟中把剛寫入的數據讀出來與記憶體中的原始數據進行比較。如果出現錯誤,則利用在硬碟內開設的一個被稱為“熱定位重定區”的區,將硬碟壞區記錄下來,並將已確定的在壞區中的數據用原始數據寫入熱定位重定區上。
磁碟鏡像技術
磁碟鏡像是在同一存儲通道上裝有成對的兩個磁碟驅動器,分別驅動原盤和副盤,兩個盤串列交替工作,當原盤發生故障時,副盤仍舊正常工作,從而保證了數據的正確性。
雙工磁碟技術
它是在網路系統上建立起兩套同樣的且同步工作的檔案伺服器,如果其中一個出現故障,另一個將立即自動投入系統,接替發生故障的檔案伺服器的全部工作。
網路作業系統具有完備的事務跟蹤系統
這是針對資料庫和多用戶軟體的需要而設計的,用以保證資料庫和多用戶套用軟體在全部處理工作還沒有結束時或工作站或伺服器發生突然損壞的情況下,能夠保持數據的一致。其工作方式是:對指定的事務(操作)要么一次完成,要么什麼操作也不進行。
UPS監控系統
UPS監控系統用於監控網路設備的供電系統,以防止供電系統電壓波動或中斷。
在工作中,我們選取的容錯技術應根據實際情況而定(如資金,規模等)。

容錯技術歷史

上世紀80年代,第一代容錯技術就開始進入商用領域。美國Stratus(容錯公司)在Stratus獨特的硬體級容錯技術及VOS專有作業系統環境下,採用了Motorola M68000處理器。
1993年,英特爾 I860處理器在Stratus的硬體級容錯體系結構中成功套用,在軟體環境方面,還能滿足業界對開放性要求的Unix作業系統FTX,即AT&T UNIX SVR4。
1996年,容錯技術得到HP的支持,共同推出Stratus Continuum系列,將Stratus容錯結構結合HP PA-RISC對稱多處理技術。
進入21世紀以來,製造、中小企業、能源、交通等領域對伺服器,特別是中低端IA伺服器的需求激增,過去僅僅可以套用在RISC平台、HP-UX環境下的容錯產品也面臨著新的挑戰。另一方面,企業越來越依賴信息系統來完成關鍵業務的套用,同時他們不可能配備更多的專業人員來進行專職維護。雙機熱備集群伺服器遇到難題。
如今:NEC通過與美國容錯公司多年的合作,於2001年推出了業界第一台基於IA架構、支持Microsoft Win-dows Server 2000標準作業系統環境的容錯伺服器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性達到了99.999%,這種實時保護技術來源於STRATUS連續處理技術(Fundamentals of Continuous Pro-cessing Design),它包括:
LOCKSTEP 技術
LOCKSTEP技術使用相同的、冗餘的硬體組件在同一時間內處理相同的指令。LOCKSTEP技術可以保持多個CPU、記憶體精確的同步,在正確的相同時鐘周期內執行相同的指令。該技術保證能夠發現任何錯誤,即使短暫的錯誤,系統也能在不間斷處理和不損失數據的情況下恢復正常運行。
安全故障(FAILSAFE)軟體
FAILSAFE 軟體和LOCKSTEP技術運行一樣,可防止很多軟體錯誤和儲運耗損。該軟體在Windows 2000/2003環境下採用熱插拔記憶體鏡像負載均衡、多點終止失效、多通道I/O等方式,大大增強了系統連續運行的穩定性。
FAILSAFE可以管理和診斷特徵捕獲,分析和通報伺服器的軟體問題,從而允許個人在軟體發生錯誤之前去糾正錯誤。FAILSAFE軟體的下列功能增強了NEC Express5800/ft系統在Windows環境中的可靠性:保護短暫的硬體故障;通過增強的驅動程式預防軟體失效;軟體問題的捕獲、分析及修正;記憶體數據的連續性維持;豐富的糾錯功能可以解決各種不同的錯誤。為了避免物理撞擊等意外故障,安全故障軟體還提供了自動重啟功能,能夠將宕機前CPU與記憶體數據即時保存下來,最大限度地避免數據的意外丟失。
激活服務(ACTIVE SERVICE )
當然,假如容錯伺服器的硬體發生永久性故障,儘管系統能夠正常運行,也必須及時更換硬體才能維持容錯的冗餘架構容錯伺服器都配備了簡易直觀的圖形界面來管理監測工具,(如NECExpress5800/ft提供了ESMPRO 管理軟體),能夠對伺服器中硬體運行及故障狀態進行適時監控。

發展趨勢

容錯技術的套用已經開始從過去的證券、電信等領域進入基礎行業,如製造、能源、物流、交通及有著"7×24"不間斷運營需求的中小商業團體和政府。NEC為迎合網際網路的高速增長,為容錯伺服器引入了最新的穩定、安全、可升級、功能強大的Linux版本。
容錯的未來將會向更高的可用性、更卓越的可維護性發展。調查顯示,越來越多的用戶開始注重TCO(總擁有成本)而不是初期購買價格,更多的企業決定逐步放棄採用雙機熱備的方式來維護複雜的集群伺服器,轉而將目光瞄向具有容錯技術的平台或容錯伺服器平台。
在中國市場,NEC 公司與神州數碼的合作在一定程度上彌補了容錯伺服器在中國市場服務拓展領域的短板。這將引發國內各領域的容錯技術與套用的井噴式發展。

相關詞條

熱門詞條

聯絡我們