運維是機房建置的重要工作,機房建置一旦建成,後期要經歷一段漫長的運維期,期間不僅要保證業務的平穩運行,還要不斷對系統進行升級和擴容,以便數據中心可以不斷開展新的業務。
所以,數據中心對運維的工作都異常重視,運維的水平高低反映出了這個數據中心整體業務水平的高低。
隨着數據中心領域的蓬勃發展,對運維的工作提出了更高要求,運維的工作也需要持續改進,去適應新形勢,數據中心發展的需要。
本文就來詳細講一講數據中心運維的水平發展路標,看看高水平運維的工作體現在哪些方面。
數據中心運維的發展原則有兩個方面:一個是儘量不去依賴人去管理,要知道數據中心裏百分之八十的故障是人爲故障,人蔘與程度越高的工作出錯概率越高,反而機器永遠都按照預定的程序去執行,除非設備出了BUG,否則永遠都不會出錯,當然BUG也是人造的,所以往往一個數據中心自動化運維的水平越高,反而越安全,故障發生的概率更低;
另一個是要儘量避免發生故障,而不是事後諸葛,“亡羊補牢,爲之晚矣”,不要總去做亡羊補牢的事情,要把可能預知的風險消除掉,避免故障的發生。
故障發生後,迅速解決故障是一種能力,但不要過於依賴這個,不能什麼問題都要等到故障發生後纔去解決,早早就應該規避風險。
“覆水難收”,故障發生後給數據中心帶來的負面影響,往往要花更多的精力去修復,有時發生的故障是致命的,數據中心可能會從此一蹶不振,只能關門大吉了。
任何一個數據中心運維的工作,都要依照這兩個原則去發展,這樣才能不斷提升其數據中心運維的水平。
數據中心運維的水平高低也可以從兩個方面來看,一方面是運維效率,另一個方面是規範建立機制。
首先,在運維的效率方面,從低到高要經歷四個階段:一是全人工運維。
這種運維的方式適用於早期數據中心規模不大或者業務流量不大的情況,這類數據中心繫統複雜度不高,設備數量較少。
日常的業務運維操作,更多的是依靠手工逐臺登錄設備進行操作,缺少必要的操作標準、流程機制。
運維的人員個人經驗非常重要,可繼承性不強,數據中心要過度依賴個別的幾個運維的技術大牛來維持,其它人員操作犯錯概率會增高,同時工作效率底下;
二是工具化的運維。
這種運維的方式適用於較大規模的數據中心,運維的人員開始使用批量化的操作工具,針對不同操作類型出現了不同的腳本程序,需要做設備配置變更時,通過腳本程序統一執行,提升操作效率。
比如設備批量升級,可以提前寫好腳本程序,然後到了指定時間,腳本程序自動運行,將服務器上的軟件程序下載到設備上,然後執行升級命令,所有設備的執行步驟都一樣,可以大大節省人力,以往人工升級每晚只能升級幾臺設備,通過腳本一個晚上就可以將整個數據中心的設備升級完畢。
不過,每次操作需求都不同,需要不斷調整腳本工具,可程序化處理能力較弱,批量執行還可能導致更大規模的問題出現,此時仍需要人工監督腳本執行情況,發現腳本有問題及時調整,運維效率並不高;
三是平臺運維。
這種運維對運維效率和誤操作率有了更高要求,通過平臺承載標準、流程,進而解放人力和提高質量。
平臺運維對服務的變更動作進行了抽象,形成了操作方法、服務目錄環境、服務運行方式等統一的標準,通過平臺來約束操作流程;
四是自運維繫統。
這種運維適用於更大規模的服務數量、更復雜的數據中心繫統,是當前數據中心推崇的運維方式,極大地解放人力。
自運維繫統對服務變更進行抽象,由調度系統根據資源使用情況,將服務調度、部署到合適的服務器上,自動化完成與周邊各個運維繫統聯動,比如監控系統、日誌系統、備份系統等。
自運維的系統還具備發現故障,並自動消除故障的能力。
另一方面是規範機制的建立。
俗話說“沒有規矩,不成方圓”,數據中心裏也要立規矩,制定各種規章制定,並有效地執行下去,規範的建立同樣也要經歷從低到高的四個階段:一是無規範機制,整個數據中心運維的工作處於無序狀態,工作效率低下,這在一些小型的數據中心或機房普遍存在,過多規範制度反而顯得有些累贅;
二是建立規範人工約束,這個階段通過規範制度加強對人的管理,通過規範人的操作流程,從而減少人爲出錯的概率。
數據中心制定了一系列操作規範,哪些不能做,哪些可以做,哪些人能做哪些事兒等等,運維的人員要按照規範來執行;
三是完善規範,不斷對規範進行改進,防止出現管理漏洞,運維的工作開展遵從一系列規範制度,有理有據去做,提升數據中心的運維效率,對運維的人員獎罰分明,依據就是這些之前制定好的規範制度;
四是系統自動約束,此時數據中心已經完全採用自運維的系統方式,人工參與極少,所以以往制定的一系列規範制度成爲了廢紙,我們只要將標準的操作輸入給運維的系統即可,系統可以自我調整,自動運行完成,保證不會出現不符合規範操作的情況。
數據中心建設的規模越來越大,採用人工方式已不現實。
要將所有運維的工作都能走向自動化,減少人的重複工作,使我們的運維交付更高效、更安全。
數據中心運維的技術發展宗旨就是將人從複雜枯燥的運維工作中解脫出來。
數據中心的所有運維活動,均由人工處理變成系統自動實現。
沒有留言:
張貼留言