災難恢復:災難恢復定義,虛擬化恢復,災難恢復計畫,四種方式,災難恢復現狀,能力評估

災難恢復（Disaster recovery，也稱災備），指自然或人為災害後，重新啟用信息系統的數據、硬體及軟體設備，恢復正常商業運作的過程。災難恢復規劃是涵蓋面更廣的業務連續規劃的一部分，其核心即對企業或機構的災難性風險做出評估、防範，特別是對關鍵性業務數據、流程予以及時記錄、備份、保護。

基本介紹

中文名：災難恢復
外文名：disaster recovery
本質：恢復正常商業運作的過程。
要求：對機構的災難性風險做出評估
實施步驟：選取數據中心地址。

災難恢復定義,虛擬化恢復,災難恢復計畫,四種方式,災難恢復現狀,能力評估,能力發展,

災難恢復定義

本文講述的是信息技術與管理概念。關於人體意外與急救，詳見“災難應對”。

災難恢復，指自然或人為災害後，重新啟用信息系統的數據、硬體及軟體設備，恢復正常商業運作的過程。災難恢復規劃是涵蓋面更廣的業務連續規劃的一部分,其核心即對企業或機構的災難性風險做出評估、防範，特別是對關鍵性業務數據、流程予以及時記錄、備份、保護。

虛擬化恢復

通過允許虛擬機在物理伺服器之間進行無縫遷移，虛擬化提供了革命性的災難恢復計畫。

構建災難恢復站點的準備

在構建一個遠程VMware災難恢復站點之前，有許多問題需要考慮。

清查現有的基礎設施。在徹底理清一個主要數據中心的資產之前，不能對其進行複製。

了解應用程式和它們的依存關係。明確哪些應用程式需要抵抗災難的能力。要考慮到（主站點和備份站點）存儲和網路架構之間任何潛在的差異，確保程式即使在不同的環境下，也能夠按照預期實現把故障轉移到備份站點。

建立恢復點目標（RPO）和恢復時間目標(RTO)。 如果數據每小時複製到第二數據中心，當災難發生時，有可能最多丟失之間59分59秒的數據。如果這樣是可接受的，不會嚴重地影響業務，那么PTO可以設定為一個小時。

為用戶服務。終端用戶也許不能夠訪問運行維護的所有的伺服器和應用程式。要考慮怎樣替換用戶們的桌面和應用程式，明確他們怎樣進行遠程訪問。

構建災難恢復站點的實施

選取數據中心地址。一條可承擔到主數據中心的高速連線是選擇災難恢復中心需要考慮的關鍵的幾個因素之一。

獲取、安裝和準備硬體。

安裝和配置vSphere。

選擇工具。

實施複製。初始化數據的複製將是最大規模的數據傳輸，隨後的對發生改變的塊進行複製將會小很多，但是複製數據的大小會依據應用程式中數據量改變的大小而定。複製的數據的大小也會依據複製的間隔（由RPO決定）而變化。

虛擬化在災難恢復時中的作用

硬體獨立：基於物理系統的災難恢復解決方案都需要將相同的硬體保留到恢復站點，或必須經過很多複雜耗時的步驟在新的或不同的硬體上重建伺服器作業系統。有時候碰巧恢復伺服器就是同一個硬體模型，但是包含了最新硬碟控制器固件，會導致伺服器鏡像延遲。虛擬化使硬體從作業系統中抽象化，而且使作業系統中使用的設備驅動器統一化，不管是何種底層硬體模型，所有虛擬機都使用一個共同的驅動集。這樣，在新伺服器上安裝伺服器鏡像時就省了很多設備驅動對應的麻煩，大大減少了恢復時間和配置錯誤的風險。

虛擬機磁碟格式檔案：虛擬機將其子作業系統、套用、存儲和配置（如IP位址）存放在一個檔案里。這個檔案——虛擬機磁碟格式（VMDK）或虛擬硬碟（VHD）檔案，包含了整個作業系統環境以便能進行簡單的虛擬機裝載和保存。這個檔案不僅包含了作業系統鏡像和套用編碼，還描述了虛擬機所需的配置，其中包括虛擬處理器、記憶體和設備。這個簡單的可移動檔案包含了組成伺服器所需的一切信息、伺服器環境描述、實際碼和數據。從虛擬機磁碟檔案啟動虛擬機時系統會自動迅速設定所有參數。在災難恢復站點進行恢復會變得很簡單，只需啟動VMHD或VHD。

物理工具到虛擬工具：虛擬機解決方案需要利用管理工具來創建、啟動、停止和保存虛擬機鏡像。為了方便創建虛擬機，有很多工具可以幫助分析物理伺服器和從伺服器創建VMDK或VHD。從物理系統創建的VMDK或VHD檔案可以很快地部署到恢復站點。

硬體再利用：恢復站點的虛擬機硬體不必閒置在那裡等著災難發生，它也可以用作開發、測試或其它用途。當發生災難時，關閉用於測試或開發的虛擬機，然後啟動生產虛擬機，這個過程只需幾秒鐘即可完成。

災難恢復的複雜性剖析

由於用戶對於伺服器虛擬化技術接受程度不斷提高，業界有一種對於所謂的“萬能的高可用策略”的需求。雖然這種做法可以在一定程度上通過集群故障遷移技術實現簡化數據保護的步驟，但並不是所有的數據保護都支持這種做法。

首先，即使當前關於伺服器虛擬化部署最樂觀的預測成為現實，到2016年也仍然有21%的X86平台的關鍵業務（產生收入的高性能事務處理程式）運行在高達75%的沒有使用任何虛擬化技術的物理伺服器上。所以，針對虛擬化和非虛擬化的不同伺服器採用不同的策略是很有必要的。

在採用了 x86 虛擬化技術的工作負載中，一些虛擬機（VMs）和它們對應的數據盤（表現為VMDK 和 VHD 檔案）相比其他虛機和數據盤次要一些。在沒有使用虛擬化技術的環境中存在很多不同的虛擬程式，但並不是所有的應用程式都是關鍵業務相關。傳統的伺服器環境中，一些應用程式和虛擬機被頻繁使用，也有一些使用的不是那么頻繁，這些現實情況都影響著數據備份和數據複製的頻率和策略。

災難恢復計畫

制定災難恢復計畫和構建基礎架構是一件讓IT經理煩惱的事。雲服務提供更低的成本和更大的靈活性,但並不是沒有風險的。

災難恢復即服務意味著更多的部署和靈活性測試,但也意味著更多的不確定性。

災難恢復(DR)會導致大量令人棘手的問題;災難恢復系統價格昂貴, 災難恢復配置難度較高,而且大多數災難恢復只能在非業務時間進行故障恢複測試，災難恢復模擬故障的內容很容易就過時了。災難恢復服務(DRaaS)是一種雲端容災的方法,成本更低,更容易部署,有定期提供測試計畫的能力,能與企業的變化保持同步。

值得注意的是,雲端的災難恢複選件可能在毀滅性的災難之後不可用。這意味著滯留IT資源和數據,使企業癱瘓。

如何制定災難恢復計畫

數據中心工作人員和業務相關人員花了很多時間和精力在到制定和測試災難恢復腳本上。

首先,預測潛在的數據中心災難：災害性天氣,停電,供應商系統脫機,內部人員的破壞或外部攻擊都是有可能的。

確定公司的災難恢復應用程式要立即線上。審核清單和優先考慮日常運作的重點程式。

接下來, 原始資料和安裝冗餘數據中心基礎設施——伺服器、軟體、網路連線、支持應用程式的載體,。災難恢復計畫無法避免成本考慮;一個離線數據中心是昂貴的。

通常, 災難恢復計畫要求複製每個應用程式的基礎設施組件。此外, 災難恢復需要和主備份站點網路連線，給備份系統當前的軟體信息。

適當的工作人員需要了解如何調用備份進程。他將決定哪些系統使用和哪些員工應該更換系統備份。災難恢復的職責包括通知他們的網路和系統提供商更改的數據和確保員工知道如何恢復系統。理想情況下,業務用戶只是略有影響。IT團隊需要在災難恢複數據期間提供最新的備份資料程式給工作人員。

IT部門經常花很多時間在設計和分析物理災難恢復計算環境上,而不是把時間用在編碼和測試中增加價值。測試一個災難恢復計畫,數據中心團隊要和相關的作業系統和所有最新的補丁一起測試需要,接收、框架、堆疊和安裝硬體。他們創建災難恢復用戶帳戶,部署框架或應用程式伺服器環境和安裝測試工具。程式設計師可以花一半的時間在普通的災難恢復基礎設施問題上,而不是把時間用在實際的測試程式。

因為災難恢復過程複雜,企業通常一年一次或兩次進行測試偶發性的災難恢復計畫。公司越大,對災難恢復計畫證明過程越複雜。

一旦災難恢復程式進入計畫,他們很快變成過時。套用不斷變化,因此團隊必須在經常審查和更新災難恢復程式。大公司在計畫的每個細節上花費員工眾多的時間和高達7位數以上的金錢($1,000,000+)。災難恢復花費更多以確保計畫仍然是可行的。

許多企業只是口頭上承認災難恢復。在IT投資上，花大量的時間來緩解這1%,甚至更低的災難恢復風險似乎並不是個好的投資。IT經理有一份又長又不斷增長的日常優先清單,而當災難發生時，災難恢復是唯一重要的事。

災難恢復服務選項

雲服務在共享基礎設施上不斷省錢。雲的虛擬化和自動化的進步使之有更大的靈活性。企業根據需要使用雲資源,雖然只是在關鍵的套用上。暫時的案例中災難恢複測試發生容易增加。

基於雲端的災難恢復,程式設計師不用在比特和位元組上苦幹;他們在硬體和作業系統界面上工作。因此更多的IT自動化的任務,生產力的提高和災難恢複測試時間的減少。數據中心的工作人員可以做為優先程式更經常, 分配更多的資源測試整個災難恢復服務功能。

雲端災難恢復服務的價格正在上升: 根據諮詢公司預測，從2013年的640,800,000美元漲到2018年的5,800,000,000美元,複合年增長率為55.2%。

當雲端成為一個風暴

災難恢復服務有其局限性。

“雲端災難恢復供應商無法完備份系統冗餘,“劍橋公司的災難恢複分析師Rachel Dines說。

災難恢復供應商不能證明以模仿每個客戶的基礎設施設定建設的數據中心成本, 所以他們走捷徑。災難恢復服務提供商將構建系統處理數量有限的故障。理論上講,如果遇到災難恢復特定場地的問題，比如數據中心的電力中斷，企業將災難恢復他們的系統,。然而,如果發生重大自然或人為災害,可能沒有足夠的空間在災難恢復站點運行每個災難恢復服務客戶的應用程式。當發現當災難發生時， IT組織在危難關頭唯一能做的是找到它並解決,因為災難恢復服務比傳統的災難恢復構建有更大程度的風險。

雲端的災難恢復也增加了企業網路頻寬的需求。在供應商的雲端災難恢復服務放置應用程式副本和虛擬機(VM)鏡像。那些應用程式和虛擬機鏡像不斷更新,來自企業生產站點與災難恢復服務供應商的數據中心的數據傳輸。這種載入應變可用頻寬。災難恢復服務能夠很好地處理簡單的應用程式,但可能降低網路性能的進程密集型系統,如客戶關係管理、企業資源規劃應用程式。

四種方式

對於企業——特別是自己運行虛擬桌面環境的企業——來說，確保部署可靠的災難恢復計畫是非常重要的。但是現在應該如何制定VDI災難恢復計畫？我們可以考慮Hyper-V、Windows To Go、存儲同步和離線虛擬桌面等四種方式。

Hyper-V的災難恢復

第一種災難恢複方式不是很常用，但是據我所知已經至少有一家企業選擇使用這種災難恢複方式。這家企業在微軟Hyper-V平台當中運行自己的災難恢復虛擬桌面，並且將災難恢復虛擬桌面的備份版本存儲在雲中以防萬一。
對於大規模災難恢復事件來說，企業通常會和硬體供應商達成協定，供應商將一批桌面PC租借給企業以供緊急使用，直到企業完全從事故當中恢復為止。根據協定，這些PC將會運行Windows 8並且已經安裝Hyper-V。企業的災難恢復計畫是將虛擬桌面的備份版本推送到所有PC上，使用Windows 8當中的Hyper-V功能為用戶提供災難恢復虛擬桌面服務。
然而對於災難恢復大型企業來說，完成這項災難恢復計畫需要投入異常龐大的工作量，因此災難恢復可能是不切實際的，但是對於災難恢復中小型企業來說，災難恢復確實是一種十分高效的方式。這種災難恢複方式使得企業不再依賴於任何後台基礎架構，就能夠恢復虛擬桌面的正常運行。
唯一的要求是DHCP（動態主機配置協定）伺服器可以為虛擬桌面分配IP位址。對於這種災難恢復情況來說，企業可以使用無線路由器提供到PC的網路連線並且分配IP位址。

Windows To Go的災難恢復

另外一種可行方案是Windows To Go的災難恢復。這種災難恢復特性在Windows 8當中被首次推出，災難恢復允許由USB快閃記憶體盤引導啟動Windows。
採用這種災難恢複方案的企業需要在遭遇災難襲擊之前，製作大量的USB快閃記憶體盤。將這些快閃記憶體盤存儲在遠離辦公地點的場所，在遭遇災難襲擊時分發給用戶。
不幸的是，使用Windows 7的企業不能採用WindowsTo Go這種災難恢複方式，但是可以使用Boot to VHD作為替代災難恢復解決方案。
不論對於哪種災難恢復情況，USB快閃記憶體盤的容量都將限制虛擬桌面鏡像的大小，因此，安裝有大量應用程式的桌面鏡像並不適合存放在USB快閃記憶體盤當中。
這種災難恢複方式的另外一種缺點是如果想要實現真正的高效恢復，就需要提前花費大量時間準備快閃記憶體盤。如果虛擬桌面鏡像版本十分穩定，那么並不是什麼問題，但是如果企業需要定期更新其虛擬桌面鏡像，那么這種災難恢複方式就變得不切合實際了。

存儲同步的災難恢復

另外一種在VDI災難恢復領域使用更為廣泛的方式是將現有環境構建在多個數據中心，或者災難恢復直接延伸到雲中，但是這種災難恢複方式是否可行在很大程度上取決於廠商的解決方案。雖然這是一種最為可靠的災難恢複方式，但是災難恢復也是最為昂貴的。
橫跨數據中心的基本理念是擴展虛擬桌面所在的主機集群，以便能夠分布在多個數據中心。同時將保存有虛擬硬碟的存儲設備複製到其他數據中心，使用這種災難恢複方式，可以將虛擬桌面同時存儲在兩個不同地點。
儘管理論上，可以實現將虛擬桌面故障轉移到第二數據中心，但是在第二數據中心創建一個完全分離的虛擬桌面池卻是一種更為高效的災難恢複方式；將虛擬桌面運行在其他位置也會產生網路變更需求。
在一些災難恢復情況當中，相比於遠程恢復現有虛擬桌面，將用戶連線到其他位置的虛擬桌面可能會更加容易一些。

離線虛擬桌面的災難恢復

VMware提供的新特性允許移動辦公用戶離線查看和使用虛擬桌面。理論上，企業可以使用這種災難恢複方式實現災難準備，以災難恢復應對能夠提前通知的、即將到來的災難，比如緩慢逼近的颶風。
但是這種災難恢複方式的缺點也十分明顯。首先，在災難已經出現之後採用這種災難恢複方式並不容易。其次，這種特性只能工作在VMware環境當中。
已經部署VDI環境的企業必須在災難恢復業務連續性計畫當中解決虛擬桌面問題。保證後端伺服器資源在災難襲擊之後還能夠正常工作是最為基礎的部分，但是如果沒有虛擬桌面，用戶就不能正常訪問這些資源。

災難恢復現狀

若處理得當，災難恢復（DR）計畫是一項複雜而耗時的任務，這有助於解釋為什麼在過去的幾年中，調查顯示有連續計畫的企業數量在下降。在一個年度普華永道（PricewaterhouseCoopers）的研究中，有災難恢復計畫的企業下降到約為39%，而去年同期的調查為50%左右。這些公司中，那些真正測試災難恢復計畫的企業通常是聲稱有計畫中的一小部分。這些只有災難恢復計畫文檔但是沒有實際測試的公司，其實際上對災難恢復的準備更加讓人擔憂。

由於對災難恢復必要性和實際價值的誤解，相關的計畫活動也少了。明顯的，雖然“更少（的員工）更高效的工作”就是“使用計算機來提高效率，”並且較少員工數量實際上更加依賴於自動化資源不間斷的使用以及減少（哪怕是短時間的）中斷操作帶來的誤差，但是這些見解和確保自動化的連續性和彈性的需求並沒有聯繫起來。

能力評估

評估災難恢復小組的能力的基本指標包括：知識，可以通過取得的專業證書或者參加的教育計畫獲得記錄；經驗，可以根據以前的工作職責或者參與實際的災難來判斷；積極性，可以根據參與專業機構、出席並且/或者在大型會議上演講以及發表的文章來判斷。每一項都可以被輕鬆地定義並制訂成基準，而且可以作為評估和增加災難恢復小組成員的技巧和技能的一個有效的出發點。

能力發展

IT專家們看到對於災難恢復（DR）的需求，並且很多人因為這個原因而使用OpenStack私有雲。但是災難恢復投資回報（ROI）的模糊不清使得把這個推售到企業的業務部門成為很艱難的任務。

上周在亞特蘭大舉行的OpenStack峰會上的一次會議中，小組專家成員討論結果表明Swift存儲應用程式接口或者API，對於為災難恢復營造更好的環境尤為關鍵。

老化的基礎架構和過期的災難恢復計畫，與此同時還要遷移到24小時不間斷的運營模式，促使了，一家位於新澤西州Somerset的移動和存儲公司搭建了一個基於Swift的對象存儲環境。

災難恢復