機房建置,數據中心是一種爲IT設備提供穩定電源和適當環境操作條件的安全基礎設施。通常情況下,數據中心運營將面臨許多不利的因素,因此確保IT設備的電力可用性有着充分的理由。在此討論一下如何定義數據中心的"可用性"。
在數據中心領域,許多人通常將"可用性"和"可靠性"當作同一事物。此外,對於一些人來說,"冗餘"一詞似乎也意味着可用性的含義。
可靠性不是可用性
可靠性是系統或組件在規定的條件下在指定的時間內執行其所需功能的能力。組件的可靠性是基於稱爲平均無故障時間(MTBF)的統計概率的預測,通常以小時(例如100,000小時)來表示。而組件、設備或子系統的MTBF通常取決於數據中心設施的製造商。
系統的可用性通常表示爲時間的百分比。對於數據中心來說,它被稱爲"正常運行時間",用"9"的數量來量化。人們應該注意的是,普通的5個9(即99.999%)是最初由貝爾公司設置的系統可用性參考標準。
然而,5個9聽起來令人印象深刻,但是,如果以每年8,760小時爲基礎,5個9仍然意味着每年的停機時間爲5.3分鐘。即使6個9也相當於每年的停機時間爲32秒。在當今的全天候運行的IT環境中,這顯然是讓組織不可接受的,因爲IT電源只能容忍小於20毫秒的中斷。而且,這並不一定意味着一年中只發生一次停電事故。這可能面臨多次電力中斷,每次雖然只有幾秒鐘,但累計起來一年的中斷時間平均爲32秒,顯然這將面臨災難性的結果,但這在仍然是數學統計方面是精確的,並且符合6個9的要求。
就可用性聲明而言,重要的區別是預測值與歷史值。在新建數據中心或其規劃設計的情況下,它只能是一個參考,這可能基於其冗餘設備級別和其容錯控制系統的複雜性。相比之下,可用性的歷史數字只代表過去的實際操作經驗。但是,歷史數據不能代表未來的表現。採用"N + 1"冗餘設計的數據中心設施可能在五年的時間內沒有任何中斷,而採用"2N + 1"冗餘設計的數據中心關鍵負載可能在運行的第一年就遭遇了電力中斷。
冗餘代表部署額外的設備,如果主要電源或主要設備不可用時,可以通過故障或在維護期間提供所需的電力或冷卻(定義爲"N")設備。但是,這種簡單的陳述並不能確保可以無縫地或即時地將負載轉移到輔助設備或附加設備運行。
舉一個簡單的例子,在市電中斷期間,備用發電機啓動並能夠爲負載供電,其啓動的時間通常爲10至30秒。顯然,這對於IT設備不起任何作用,並且需要使用具有足夠能量儲備的UPS來提供不間斷的電力。對於冷卻系統而言,其可接受的時間根據冷卻系統的類型而不同,對於低功率密度設備來說,可以堅持5到30分鐘,對於功率密度非常高的IT設備來說,則只能堅持 15到60秒的時間。
具備彈性的冗餘設備來控制電力設備和冷卻設備以支持IT負載。冗餘設備本身並不排除發生瞬間或短暫的中斷。人們使用容錯設計和冗餘設備(N + 1,N + 2等)和關鍵電源路徑(N,2N等)的組合在可接受的時間範圍內來提供電源和冷卻(以及網絡連接)服務,讓IT設備在電力不中斷的情況下運行。
雖然擁有可靠性高的設備可以減少系統故障的機會,但不能確保更高的可用性。"可用性"的真正基礎是冗餘設備、容錯設計以及電源和冷卻系統的控制和傳輸時間的重要性。實際上,人們永遠不要把數據中心的可用性寄託在設備的預計可靠性上。
企業需要採取更全面的方法。綠色網格組織正在開發其數據中心可用性開放標準(OSDA)的首個版本。雖然並不打算與Uptime Institute Tier 4級別系統進行直接的競爭,但OSDA概念適用於電源設備和冷卻系統的冗餘級別的經典視圖,但它也在整體方案中結合了多站點數據複製功能,以增加邏輯應用程序的可用性,而不僅僅是保持數據中心基礎設施的現狀。
OSDA系統也更加靈活,因爲它允許不同層次的電源和冷卻設備實現冗餘,而不是那些確實認識到某些組織(或某些應用)可能需要更高電氣冗餘的不太靈活的框架,例如採用2"N+1"冗餘,其實只需實現"N+1"冗餘。在完全開發之後,OSDA平臺和工具集可用於評估多站點數據複製如何提供相同或更高級別的應用程序可用性(這就是爲什麼首先構建數據中心的原因),其規模爲1-10,甚至在使用較低的冗餘級別的數據中心基礎設施時也是如此。
很多企業的管理層認爲雲計算是一種"完美"解決方案,因爲它將會消除與數據中心以及IT硬件相關的所有資本和運營成本以及人員成本。雖然它被盲目地推定爲總是可用的,但實際上,雲計算服務提供商的基礎服務更加模糊或完全不透明。儘管如此,即使在今天,許多機構和商業組織也沒有真正能夠決定採用一種有意義的方法來評估雲計算服務的可用性。
計算架構已經變得非常活躍並且持續不斷髮展,而且很明顯,大多數組織已經放棄建設或運營自己的數據中心設施。許多企業採用主機託管服務提供商提供的託管服務,他們可以使用基於冗餘方法的傳統數據中心基礎設施方法對其進行評估。因此,採託管數據中心和雲計算的混合方法已成爲許多組織目前最喜歡的策略。
很多人對長期實施的"數據中心可用性"的行業標準(由Uptime Institute創始人Ken Brill創建的四級Tier分類系統)提出一些不同的意見。雖然它仍然是一個有價值的(也是最基本的)概念和索引,但它只是評估數據中心設施基礎設施的可用性,而沒有評估IT硬件、軟件以及數據本身的可用性。在虛擬化和數據複製的時代,其基於數據中心的"可用性評級"只是側重於數據中心設施電力和製冷基礎設施的冗餘水平,雖然這也很重要,但它不應該成爲評估計算系統和存儲數據的可用性的唯一因素。
因此,在規劃和構建總體計算策略時,軟件和應用程序需求的功能彈性應該是更重要的因素之一。例如,開放計算項目組織提出需要對IT硬件的物理、電氣和邏輯方面以及電氣設備、機械基礎設施和建築物本身設計進行全面的再思考。而這也是開放計算項目成員(如Facebook,Google和微軟等超大規模運營商)運營的考慮因素。在許多情況下,它們的設備冗餘級別相對較低(例如,某些系統爲"N"或N + 1),但由於其軟件故障切換冗餘和多站點數據複製,其整體可用性很高。雖然這些需求的某些特徵與傳統企業組織有着根本的區別,但這些設計、設備和軟件策略的某些方面,如果使用適當的話,應該加以考慮和採納。
最後但並非最不重要的一點是,如今比特幣被人們認爲世界未來貨幣的基礎。大多數最新和最大的比特幣數據中心運營模式似乎與傳統數據中心設施相反。事實上,其數據中心許多設備都沒有配備UPS、備用發電機,很少使用或沒有冷卻設備。他們的唯一目的就是使比特幣採礦成本降到最低,一旦電力中斷就可以停下來,而不會造成損壞,並在電力恢復後立即開始採礦。因此,其即使只有兩個9的電力設施的可用性比大量附加初始成本和運營成本的、電源鏈完備的數據中心設施更具成本效益。
儘管如此,越來越大的託管數據中心設施、雲服務數據中心,以及混合解決方案將在未來幾年佔據主導地位,組織需要評估每個整體解決方案的長期成本和風險。在這個不斷髮展的計算環境中,構成"可用性"的內容是基於其目的而作出的最佳選擇,而不是僅僅依賴於嚴格標準的傳統的Tier 4級數據中心設施。
沒有留言:
張貼留言