一份機房建置關機檢查表能夠幫助IT團隊在關閉電源和損失全部有價值數據之前,集中進行備份、測試以及系統驗證等事項。儘管策略和流程是現代IT的關鍵,但每當需求提升時,數據中心管理員往往來不及關閉設備。需求就像接近中的暴風雨那樣富有戲劇性,也可能市政電網升級那樣司空見慣。
但是,企業準備和響應設施關閉的方法可以鼓勵或避免成本上的災難。
一份精心構思和經過測試的數據中心關機程序在業務連續性規劃中起着至關重要的作用。它定義了遷移或關閉應用程序、保護有價值的數據、關閉物理系統的最佳流程,然後晚些時候再成功地重新啓動它們。讓我們在一份基礎的關機文檔中考慮主要元素。
驗證和升級系統文檔
每份數據中心關機程序都是最終啓動的前奏,因此在維護期間結束前,適當的準備是確保成功重新啓動的關鍵。創建一個全面的(或者至少是當前可行的)文檔集,獲取每個系統的容量、操作系統和應用程序配置,特別注意在重新啓動時可能發生或意外更改的任何內容。有很多工具支持創建這個文檔集,並且最現代的配置管理和執行工具可以獲取和報告系統狀態。不要忘記獲取或記錄任何網絡設備或存儲陣列的配置。
管理依賴關係
不同公司和設備之間的實際依賴關係差別很大,因此IT規劃者需要決定啓動序列,包括網絡設備、存儲陣列、DNS服務器、備份服務器以及調度器。一旦所有必要的服務器、存儲、網絡和關鍵服務,如DNS等恢復在線,啓動序列可以移動以重啓應用程序,如數據庫,緊接着是依賴的應用程序,如公司銷售系統。然後,啓動如公司店面網站這樣依賴於這些應用程序的任意流程。
在準備過程中,還要識別和理解數據中心內的各種不同的依賴關係。記錄依賴關係幫助IT人員以適當的順序重新啓動系統、服務和應用程序,以避免中斷以及損失啓動時間。例如,在啓動存儲陣列之前,不希望啓動其所依賴的服務器。
執行並驗證備份
備份對任何數據中心都是一個重要的過程,但可靠的備份在計劃設施停運之前是至關重要的。在關機開始前完成並驗證任何定期備份,並手動備份沒有定期備份計劃的系統,或在關機之前設置充足的恢復點。
傳統的備份方法可能會嘗試獲取每個服務器的操作系統狀態以及單獨的數據備份,如SAN上的數據。虛擬化數據中心可以選擇更近的虛擬機感知備份,如快照和遠程複製。正確的備份不存在某一單一的方法或措施,流程與底層工具必須適合自己的數據中心和業務需求——但關鍵在於要確保所有內容都已備份,同時測試這些備份以驗證他們是完整並且可恢復的。
如果準備時間有限,建議將時間集中在關鍵任務的備份上。然而,任何系統或數據未備份將使應用程序和業務存在風險。
檢查並驗證系統硬件
第三步是準備一份數據中心關機檢查表,檢查硬件狀態並確定任何硬件故障。現代系統管理工具可以生成電子郵件或郵件系統的錯誤報告,將事件記錄到日誌文件並提供跟蹤事件的全面和實時的儀表板。但並非所有的事件都能夠立即解決。例如,RAID 6組中的RAID 5磁盤可能會出現問題,並被重寫到另一個備用磁盤上,但在技術人員完成替換和重建出現問題的磁盤之前需要一些時間。類似的問題還發生可能遷移或重啓虛擬機工作負載從服務器到其他可用系統的上時,然而由於尚未被處理,困擾系統可能仍然存在問題。
錯誤日誌和儀表板的審查無法修復這些問題,但這能夠在關機之前暴露相關問題,提醒IT人員問題並不是由停機或重啓所引起的。IT人員可以做出明智的決定,以處理關機之前的未決事件,或至少確保未決的問題不會影響重新啓動。
按照正確的順序關閉系統
一般來說,一份成功的數據中心關閉程序始於IT環境的外圍,並逐漸向內展開。公司可能會首先註銷和關閉最終用戶,關閉如Web服務器等應用程序以及Exchange等服務,緊接着關閉數據庫和中間件。虛擬化環境可能默許和關閉如虛擬機或VMs等虛擬實例,其次是如VMware的vCenter或Microsoft System Center等管理工具。這時IT團隊才應關閉物理服務器。而一旦服務器關閉,IT團隊可以關閉存儲和網絡設備。IT團隊在確保不間斷電源系統、監視器、電源分配單元和其它輔助設備正常工作後便圓滿結束關機任務。
恢復及驗證系統
當計劃的停機結束時,IT團隊可以實施重新啓動過程。理想情況下,重新啓動將是關機的完全相反的過程,但過程並非總是如此。重新啓動往往仔細進行每一步的設施電源再分配,防止巨大的電流衝擊,以及可能觸發的斷路器和損壞設備。每一主要步驟還涉及一些驗證或測試,以確保在執行下一個啓動步驟之前,設備或軟件保持正常運行。
例如,在嘗試啓動任何存儲陣列之前,打開網絡設備並驗證其是否已正常啓動。存儲陣列啓動完成後,檢查可能出現問題的磁盤、有問題的磁盤組以及其他可能出現的問題。
沒有留言:
張貼留言