2018年6月13日 星期三

機房建置,如何加強數據中心的彈性?

機房建置,人類是一種體質虛弱但卻具有強大彈性的生物。對於人類來說,可以本能地知道如何在地球各個地方生存和繁衍。而與人類一起發展的物種是機器,更具體地說,是智能機器。
從亞馬遜的Alexa到可穿戴技術,從邊緣技術驅動的智能傳感器到功能強大的機器人,物聯網以指數速度增長,並正在與人們的生活方式完全融合。摩爾定律似乎適用於技術進步的所有方面。
 機房建置
嵌入在軟件中的邏輯和數據使機器設備變得更加智能,而且所有這些關鍵設施都集中在的數據中心。隨着墨菲定律(凡是可能出錯的事都有很大機率會出錯)永遠潛伏在數據中心運營的陰影中,數據中心比以往任何時候都需要有彈性,就像人類一樣,因此,作爲數據中心設計師,運營商,它設施經理來說,數據中心可以從人類強大彈性的特性中學到什麼?
數據中心的彈性
無論出於何種原因,人類由於生存而自有的隨機應變的基因被編碼到DNA中。這是數據中心應變能力的起點:設計。數據中心必須設計成在多個層面上具有彈性(電力,冷卻,網絡,通信以及潛在的內部和外部威脅)。
而目前數據中心行業的人士想到彈性時,會想到部署冗餘的設備,尤其是基於正常運行時間研究所的層級而設定的。數據中心擁有兩條主動基礎設施支持路徑,爲數據中心業主提供99.995%的可用性,最終成爲容錯站點基礎設施,換句話說,每年大約有48分鐘的計劃內或計劃外停機時間。
與人類的基因不同,IV級層數據中心彈性設計非常低效。這就好像效率和彈性是完全相反的。由於擁有有冗餘設計,將會部署成本高昂的冗餘基礎設施。而在層Ⅲ數據中心空間內可以找到更有效和更具成本效益的折中方案。在經典的2 n配置中,不是採用兩個鏡像的冗餘輸入電源,而是可以選擇三條輸入電源,每個電源可以在2 n分佈式配置下承載2 n負載的一半。換句話說,在分別爲150 va的三個負載下,三個輸入電源共同承載100%的300 kva負載都是低效的,每個負載的利用率爲66.6%。如果其中一個輸入電源中斷,另兩個輸入電源仍然可以提供300 kva的負載容量。除了這種配置成本更低的部署和操作之外,如果三個輸入電源是100%獨立的,它還提供了改進的正常運行時間可用性。
數據中心的選址
人類通常會仔細考慮在哪裏定居,並建立他們的社區。選址對人類的生存至關重要,數據中心也是如此。如果發生地震,洪水或飛機撞擊等最爲嚴重的自然災害和人爲災難,最有彈性的數據中心設計都將很難應對。人們應該規劃和應對潛在的威脅,以及圍繞電力和冷卻可能帶來的好處。替代能源的可用性以及利用自然開發創新方式來冷卻數據中心(不管是自然空氣冷卻還是自然水源等),這將增加彈性,並提高效率,節省成本。
共同工作
如果數據中心變得真正獨立,人工智能,預測分析和機器學習可以進行計算,合理化並做出決策,那麼該怎麼辦?
人類居住的社區通常適宜生存和生活。如果在一個地方發生災難,通常會很快得以恢復。就像人類分佈在世界各地形成集羣一樣,可以利用整個數據中心的集羣優勢,企業都能夠抵禦災害對電力和冷卻的威脅。在研究跨越數據中心網絡的基礎設施時存在這種邏輯,這些數據中心可能位於一個地區或全球各地,而且每個數據中心設施在基礎設施體系結構,外觀和感覺方面都完全相同。而多數據中心的彈性拓撲意味着每個數據中心設施都運行相同的應用程序,並可訪問N個數據庫副本,並在數據中心內複製所有更改,因此,用戶可以隨時與任何數據中心進行通信,而不會有失敗的風險。
從過去的錯誤中學習
人類具有彈性的強大特徵是在可能威脅到人們生存的情況中學習的能力。同樣,瞭解運營中的數據中心是一項應該延續數據中心設施壽命的努力。其起點是監測,數據中心的一切都需要監控,例如,機架內部溫度,機架前部、機架上方,機架後部,UPS /電池空間,地板,冷通道和熱通道內的溫度和溼度,氣壓,電路,流量和回水溫度,返回空氣,以及煙霧探測等,都需要進行監測。人們永遠無法獲得足夠的監測資源。
然後,重點應該是在相當長的一段時間內收集數據,並通過創新地創建設施數據的子集來尋找趨勢和週期。每個數據中心都是獨一無二的,需要工作人員對數據中心設施所提供的數據有了持續的瞭解,並且所創建的正確信息可以持續規劃恢復能力。一個良好的數據中心基礎設施管理(DCIM)工具應該對此有所幫助。
數據中心的獨立
人類需要自己思考,可以離開社區並適應外部環境生存和發展。而一些調查研究將數據中心的大部分停機時間直接或間接歸因於人爲錯誤。將人排除在外可以提高機器的適應能力嗎?當然,人工智能正在進入數據中心領域。目前情況是網絡運營中心通過DCIM工具與數據中心進行交互。如果數據中心真正獨立,人工智能,預測分析和機器學習可以計算,合理化併爲數據中心的利益做出決策,那該怎麼辦?如果數據中心變得自我復原呢?
數據中心自我保護系統已經取得了一些進展,它可以通過面部識別和空間意識消除有關安全訪問控制的決策過程。很快,人們希望數據中心能夠根據設施內的問題進行預測,並對環境和基礎設施參數進行調節,以實現完全優化,這不僅在數據中心內,而且還代表數據中心網絡.DeepMind工具已經將谷歌公司的數據中心能源成本降低了高達40%(不包括能源損耗和冷卻效率)。
當摩爾定律與墨菲定律發生碰撞時會發生什麼?看起來,面對即將到來的大量數據和應用程序以及管理它們所帶來的一切問題,數據中心保持彈性的能力可能超越人類,而人們也要在某些時候必須讓機器來管理機器。

沒有留言:

張貼留言