如今,數據中心運營商每天都在爲機房建置的高可用性感到煩惱,全天候工作以確保100%的正常運行時間。
他們部署冗餘設施以最大限度地降低風險,嚴格規劃和測試以確保連續性運行,並採取預防措施保護其基礎設施免受環境威脅。
但是,即使是最好的計劃和準備措施也會在自然災難或突發事故中出錯。
事實上,在某些極端情況下,先進的規劃和準備工作依然無能爲力,而災後恢復成爲確保企業在重建數據中心業務的同時保持功能的重要組成部分。
在任何災難情況下,時間都是至關重要的,因此數據中心工作人員需要知道在事件發生後的幾分鐘、幾小時和幾天採取適當的行動。
工作人員的安全首先是最重要的因素,因此一旦確定所有人員都是安全的,就應該開始執行以下恢復活動:
主動監控所有關鍵設備以尋找隱藏的問題 - 查看直接受到災難事件影響或暴露於災難事件的設備,如發電機,機油和過濾器等。
例如,在恢復工作可能需要幾天甚至幾周的情況下,對於監測燃料供應和了解發電機在沒有備用柴油的情況下運行多長時間至關重要。
在自然災害緊急情況下,醫院,急救人員和其他公共安全組織必須首先獲得燃料供應,無論數據中心是否有沒有燃料供應合同。
在指定的時間段內增加現場巡查 - 這將有助於工作人員發現任何缺陷,如漏水或設施損害。
確保每位員工都有合作伙伴提供支持和幫助也很重要。
確保員工輪崗,減輕現場員工的壓力 - 爲了給員工提供足夠的休息時間,企業可以考慮從其他沒有受到影響的數據中心招聘員工或委託第三方供應商進行部分恢復工作。
建立通信協議,提供關鍵更新和現場反饋 - 在驗證所有區域和系統後,定期舉行簡報會,向工作人員和管理層通報任何數據中心或現場影響。
在災難恢復情況下,從CIO到每個工作人員人都可以發揮作用,因此,所有參與方都必須及時瞭解正在發生的事情。
監視輸入電源- 由於爲數據中心的提供電力的電網可能受到影響,數據中心電力將會中斷或質量下降,所以與電力公司聯繫以瞭解合理的安全時間非常重要,在電網供電正常時,數據中心關閉備用的發電機。
並重新接入電網。
應用經驗教訓 -只要時間允許,立即開始編寫和記錄經驗教訓和最佳實踐,爲下一步活動做好準備。
儘管自然災害是不可避免的風險,但通過正確的災難恢復計劃,數據中心運營商可以將這些災難性事件的影響降至最低,從而快速安全地恢復運營。
沒有留言:
張貼留言