機房建置,大多數的數據中心冷卻和電源的容量都已經過度配置,這並不是什麼祕密,通常所部署冷卻容量比必要的冷卻容量要高出三倍。
而根據調研機構Gartner公司的調查,數據中心40%的冷卻成本被浪費。谷歌公司表示,採用人工智能技術大約可以節省35%的冷卻成本。而相關機構的測試表明,根據天氣模式,外部空氣溫度、外部空氣溼度,以及根據冷卻類型的不同,可節省25% - -40%的冷卻成本。
法國電信公司位於巴黎郊外的Illiad數據中心的冷卻泵。數據中心主要依靠機房空間製冷,但一年中約有30%的時間使用自然冷卻
大多數建設和運營數據中心的公司都不會像行業巨頭那樣具備建設高效數據中心所需的預算和專業知識,因此一家名爲AdeptDC的創業公司希望爲用戶提供一個基於軟件的智能數據中心冷卻管理系統。這款智能管理系統採用CPU溫度測量等診斷信息,無需在數據中心安裝額外的傳感器,並可以節省時間和成本,並減少複雜性。該公司稱,這個系統適用於採用任何硬件和任何類型的冷卻系統,可以收集整個工作週期的信息。這個基於機器學習的熱管理系統爲用戶的冷卻設備設置點的實時更改提供建議,就像數據中心的智能恆溫器一樣。
AdeptDC公司總部位於加利福尼亞州的聖克拉拉,該公司的產品已經在物流巨頭UPS公司,喬治亞理工學院,以及艾睿電子進行試點部署。
AdeptDC公司首席執行官顧磊傑(Rajat Ghosh表示,“最大的問題是冷卻和散熱之間沒有一對一的對應關係。雖然改變了暖通空調設定點,但這並不能保證有相應的改變。這是由於機房具有氣流和散熱問題的複雜性。”
他解釋說,“工作負載的變化速度可能比冷卻系統更快可以做出反應,因此很難預測環境的變化,它基礎設施流程變化非常快,但空氣冷卻相對遲緩。”
他說,“即使兩個配置相同數據中心的冷卻系統中也不會得到類似的響應。機房中的氣流通常是湍流,並且是非確定性的。如果在某一天對設定點的氣流進行設定,卻無法保證第二天能獲得相同的氣流,由於數據中心管理人員並不真正瞭解冷卻系統在不斷變化的條件下的表現,因此數據中心在設計之初只能實施多層冗餘,以確保爲任何事情做好準備。”
AdeptDC冷卻管理系統冷卻管理系統主要用於風險管理。從這個角度來看,AdeptDC公司使用機器學習來改善數據中心工作人員管理風險的方式,併爲機房環境中正在發生的事情繪製更清晰的圖像,最終幫助他們避免過度配置冷卻設施。
這款軟件可以根據數據中心基礎設施中的熱源來確定需要什麼樣的冷卻。”CPU溫度是消除產生的廢熱所需的最佳冷卻指標,“啊呀說。如果企業的工作負載使用GPU,這個系統也可以讀取GPU溫度(許多機器學習工作負載都需要密集的GPU集羣進行培訓,這種類型的處理器在越來越多的數據中心得到推廣和應用)。
數據中心管理人員通常並不是冷卻散熱設計和氣流管理方面的專家,採用機器學習可以很好地處理熱管理複雜性和大量數據的問題.Gosh說,“這就是我們推出人工智能解決方案的原因,這個方案可以實時處理數據,併爲冷卻系統提供非常精細和低延遲的設定點建議。它就像一個數字熱敏助手。”
AdeptDC公司提供的這個系統可以幫助數據中心管理人員解決一些不太複雜的問題,例如提供更好的可見性。該工具還可以幫助用戶提供按需擴展冷卻能力。“如果數據中心的工作負載,佈局或設備發生變化,那麼很容易使冷卻系統適應不斷變化的環境。”Ghosh說。
智能散熱技術在邊緣數據中心尤其重要,這些邊緣數據中心對運行的環境可能要求更高,可能是無人管理,並且需要通過自動化設施遠程管理,或者沒有足夠的電力來運行更多冷卻設備。使用軟件管理而不採用傳感器,可以簡化邊緣數據中心在偏遠地區的安裝和部署,並且不必公開這些位置。”如今,許多企業都很關注邊緣數據中心的物理安全問題。”Ghosh說道。
由於冷卻設備的能耗佔據數據中心的大部分能耗,因此企業需要了解其成本費用。那些試圖引入按需定價和收費模式的組織可以使用AdeptDC來了解哪些工作負載有助於降低冷卻成本,並對其業務預算重新分配,即使沒有獲得具體的信息,組織也可以更好地瞭解數據中心的能源效率,而不僅僅是通過PUE值來衡量。
Ghosh表示,“PUE值的描述並不十分準確,因爲數據中心的能耗除了電源和冷卻設施之旬,還有很多重要的組成部分。組織應該瞭解投入了多少費用,以及從投資中獲得了多少運營收益,然後將它變成投資回報等商業指標。”
沒有留言:
張貼留言