2018年1月24日 星期三

數據中心環境監控自動化中的兩個常見問題

如今,數據中心越來越趨於自動化,並已成爲數據中心良好運營的強大力量。以下列出在數據中心環境監控自動化中經常出現的兩個主要問題。
 環境監控
問題1:房間裏的大象
“房間裏的大象”是指人們私密生活和公共生活中對於某些顯而易見的事實,集體保持沉默的社會現象。人們在進一步深入自動化之前,無論是自動發現,報告交付或警報觸發操作,必須做出一個關鍵點:在某些方面,它被稱爲DPR週期。DPR代表檢測,預防和響應。
警報是工作人員在發生錯誤時捕獲錯誤的方式,但是由數據中心工作人員來決定它們發生的原因,並找到一種防止錯誤再次發生的方法。當構建一個解決方案以自動響應警報並進行修復時,作爲負責任的數據中心專業人員,還應該致力於分析情況的艱苦工作,以找到模式和根本原因。然後需要解決根本原因,並創建檢查,以便知道是否再次出現問題。
對警報的自動響應保持企業的業務在所有的時間運行,並幫助確保知道你需要的時間,工作人員必須能夠看到發生了什麼,做的工作出來爲什麼會發生,所以可以防止它在將來發生。這樣纔不會出現“房間裏的大象”問題。
問題2:內心恐懼
許多數據中心專業人員在第一次提出自動響應警報的想法時感到擔心。而具有一個真正有活力的大腦的人會對這些警報進行仔細思考,然後謹慎採取行動。這種想法就像站在“自動化”海洋的邊緣。有點令人望而生畏。但你必須相信不會被海水淹死,並且有能力一步步地嘗試。這並不是一個全有或全無的命題,其風險也將會從零到全部。
與任何IT工作一樣,有實施計劃有時比實施(或在這種情況下是自動化)本身更重要。所以可以再談談這個實施計劃:
首先識別測試機器。無論是爲這些目的而部署的實驗室設備還是那些不太重要的志願者,請設置警報,以便觸發這些機器。
學習使用反向閾值。雖然企業的最終警報將檢查CPU的工作負載量大於90%,工作人員可能希望避免反覆測試。而CPU的工作負載量小於90%將觸發更多的可靠性,至少工作人員希望如此。
查找復位選項。與上面密切相關,瞭解數據中心監控工具如何重置警報,以便再次觸發。也許很可能會很多使用那個功能。
詳細情況。數據中心工作人員想要了解發生什麼和什麼時候可能發生。如果數據中心的工具支持自己的日誌記錄,請將其打開。在自動化中大量插入“我現在開始XYZ步驟”消息。雖然很乏味,但你會很高興所做到的事情。
自己處理警報。如果你認爲會通過發送這些警報到服務器團隊進行測試,事實上,你並不會把它發送到任何團隊,而會認爲自己可以處理這些警報。
你真的不需要通過電子郵件觸發那些警報。所有這一切都是在基礎設施上造成額外的延遲和壓力,以及如果你的警報同時啓動多個消息,可能會產生其他問題,會將消息發送到本地日誌文件和顯示屏。
分享警報提醒。現在,你可以通過對話與小組的其他人分享警報提醒。
採用對話。這個過程將涉及與其他人交談。設置自動化是協作的,因爲你和那些每天都在一起工作的人都應該同意從基本功能到消息格式的一切。
將相位器設置爲滿。一旦自動化在企業的測試系統上工作,計劃通過分階段的方法實施。使用相同的機制,你用來限制幾個警報,你向網絡擴展,也許10-20個系統。並且你再次測試觀察結果。然後你擴大到50個左右。確保你和收件人都很滿意所看到的結果。記住,在這一點上,團隊正在接收常規警報,但你仍然應該看到之前提到的詳細消息。你應該與團隊進行審查,以確保你認爲發生的是真正發生的事情。
遵循這些指南,任何自動響應應該有很高的成功機率,或者至少你會避免陷入糟糕的自動化,不會產生太多的損害。採用自動化的一個很好的經驗法則是用最小的努力獲得最大的回報。無論你現在看到的是什麼基於系統的事件,這可能是你可以獲得的最大影響。另一個找到自動化想法的辦法就是聆聽團隊的想法,考慮是否有哪些用戶投訴是由系統故障驅動的。如果是這樣,它可能是解決自動化出現問題的機會。最後,不要計劃得太遠。你可能現在感到擔心在獲得一兩個成功之後,你會發現團隊正在尋求你的建議,以你的方式獲得幫助。

沒有留言:

張貼留言