2017年11月9日 星期四

如何避免機房建置中的問題

機房建置在過去幾年裏,數據中心發展很快,新建項目很多,也隨之暴露出不少問題:未能滿足企業業務需求,或者在測試驗證或TIER認證過程中才發現問題,但亡羊補牢的修復需要花費更高、更耗時。
 機房建置
這些失誤,無論是數據中心業主還是設計者,都需要承擔一定程度的責任。
專家對大量的案例研究發現,數據中心故障、項目延期、超預算等問題,起因大都根源於建設階段,甚至項目早期的資金階段——正在確定設計目標、預算、時間進度、需求建議書和採購文件發佈、搭建建設團隊的時候。
原因是各利益方的目標未能協同一致、以及承包商的表現不良、項目計劃不足和團隊溝通問題。
建造監管、計劃和預算的疏忽,意味着新建數據中心將不能滿足業主對彈性的期望值,或者需要額外時間或者預算,來解決驗證期間甚至更晚些時候暴露的愈發顯著的問題。
導致數據中心表現不佳的建設問題可以歸結如下:
- 複雜系統的整合不佳
- 缺少完整徹底的驗證,或是壓縮了驗證週期
- 設計變更
- 材料或產品的替代
這些問題出現在建設階段,驗證甚至運維階段,可能影響預算、項目進度或IT運營。
這些建設問題經常發生是因爲變更管理流程不佳,項目團隊缺少經驗,項目參與者的目標不一致,或者缺少第三方驗證。
1、指定數據中心業主代表
所有利益方在項目伊始就應該認識到,業主的目標大大有別於建造者的目標。
業主想要一個能夠最佳滿足成本、建設週期和所有業務需求包括數據中心可用性的數據中心。
建造者想要滿足項目預算和週期要求,同時獲得一定項目利潤。
數據中心可用性和運營考慮通常在建造者的考慮範圍和專業知識領域之外。
因此,當需要利用承包商在材料和人工成本、設備可用性、本地行爲準則和實踐等方面的經驗,以便節省資金和幫助業主按照既定的項目週期進行建設,而不希望影響可靠性和可用性方面的時候,由項目業主或業主代表全力主導合同語言、流程、權限,以限制承包商去變更或者破壞設計決策的能力,就勢在必行了。
業主應當指定有經驗的代表,審覈承包商的資格、經驗、人手、領導力和溝通能力。
缺少經驗和報價便宜的承包商經常會出現質量控制問題和設計上的偷樑換柱。
業主或業主代表應該完成所有的項目要求,建立大家一致認同、基於運營序列和合理的、有激勵性的建造進度表,包括留有足夠的時間去做嚴格的和完整的驗證。
此外,業主代表應該經常性的檢查項目進度、通知團隊成員項目進展,以確保分配給測試和驗收的時間沒有被減少。
項目經理,或承包商,要關注可能要執行序列外任務的進度表。
執行序列外的任務以及返工去糾正錯誤放置的電氣服務、管道、線纜等,這些都可能導致項目進度延誤問題。
建造進度延誤不應該用放棄測試驗證來彌補滯後的時間差。
在建造合同中加入多項針對延誤的懲罰條款是一個應該考慮進去的解決方案。
2、價值工程
價值工程把“價值”定義爲:“對象所具有的功能與獲得該功能的全部費用之比”,價值工程(VE)被業主廣爲接受,以減少按照完整設計建設的預期成本。
價值工程的流程有其價值,但它往往把重點放在建設的第一成本。
這一方法常由承包商實施,在設計者中的口碑很糟,因爲它經常傾向於變離設計初衷。
然而也有其他設計者相信,對富有經驗的人來說,即使在數據中心項目裏,價值工程可以爲項目管理者節省成本,而不影響可靠性、可用性或運營。
如果價值工程在執行時沒有運營的反饋以及適當的設計評估,任何從價值工程變變更導致的初始的節省都可能會遠遠少於補救修復以達到並行的可維護性或者容錯的必需功能的工作量,此外還要增加數據中心生命週期的運營成本。
數據中心業主需要很小心從價值工程出發考慮導致的項目變更:這些變更可能或偏離項目要求或偏離設計意圖,而且如果價值工程的變更基本上改變了設計,想達到成本節省的目的也很難。
因此,每個變更都應仔細觀察它對設計的影響。
聘用有數據中心經驗的設計工程師或項目工程師也許可以減少建設過程中不恰當的變更的數量。
即使如此,數據中心業主也要認識到不當執行的價值工程將導致設備替代或系統合併,從而影響業主希望的容錯或並行可維護性。
承包商可能會用有不同容量、容錯或規範的低價設備替代原有設備,從而影響可靠性。
價值工程的變化的例子包括:
- 去掉並行的可維護性需要的閥門;
- 減少ATS數量;
把設備整合到單一ATS上;
- 把熱泵和能量效率系統整合在一起,而不考慮並行的可維護性和容錯運營。
3、充足的驗證時間
導致建造延誤,有時是因爲最初的建造進度表沒有考慮進去充分的系統聯調和故障模擬測試需要的時間。
建造團隊在嚴格的數據中心測試驗證方面經驗不足,是發生這類錯誤的主要因素。
建造者有時也會設定最終截止期限,然後當工程滯後時,把測試驗證時間當成一種緩衝。
基於上述,對業主及其代表來說,很重要的是,計劃出充分的測試驗證時間,確保承包商按時或提前完成建造。
專家建議,比較妥當的做法是,測試驗證機構和總包商作爲合作伙伴早點介入,共同規劃制定項目進度。
此外,業主及其代表應該仔細觀察建造項目招標以確保招標包括如下要求所需的資金及時間:
- 場驗
- 由第三方承擔的系統聯調和故障模擬的驗證
- 假負載以模擬關鍵環境的IT滿載
- 柴油燃料測試以驗證發電機系統;
4、數據中心建造失誤案例
建造過程中幾乎任何時間都會發生一系列問題,包括招標過程中。
例如,一個業主的採購部門試圖最大程度壓低供應商的UPS價格,但是忘了訂購連接UPS的母線和其他零件。
另一個例子,一個承包商因其低價從800英里外用滑軌運輸完全組裝完成的發動機的方案而中標。
當供應商威脅不能支持對這一創新做法的保修,承包商被迫承擔用更傳統的方式運輸設備的額外成本。
這種情況下,業主得更明察秋毫:承包商是否會通過變更設計或用其他產品替代來補償自身的損失。
電氣母線槽的安裝問題也很常見。
經驗豐富的設計者和承包商,或那些在建造階段參與的運維人員,知道那些母線槽需要定期在負載下查看連接點,以確保連接點沒有鬆開或過熱而導致電弧故障。
給關鍵支線貼標籤也非常重要,運維人員可以在出現事故時,知道如何快速應對以及關掉哪個系統。
設計規範和建設團隊都會按照數據中心開發商的對設備標識系統的清晰要求來執行。
相反,也有實例說明,建造者不考慮後續的維護或者關鍵基礎設施的標識,把母線槽跳接到共用的區隔,忽視了給任何一個導線貼標識。
在一些T3項目認證中,UPTIME觀察到如下製冷系統的問題:
當屋頂空調控制序列協同出錯時,RTU供應的風扇和室外空氣阻尼未能同速反應導致數據間過壓或低壓:一種情況是超壓炸倒一堆牆,一種情況是過壓或低壓導致開門或關門危險。
並行的可維護性要求特別檢驗火災檢測及滅火系統以確保任何維護修理活動不影響電力或製冷。
在一次UPTIME建造認證中,專家發現,即使當機械板完全隔離時,一個給提供穩定電壓系統的機房空調關機繼電器供電的雙路供電UPS,也給配電盤提供活躍電源,遷移這個繼電器導致全部電壓損失,全部機房空調的斷路器打開,數據機房和電力機房的關鍵製冷喪失。
這個問題是對一個價值2千萬美金的數據中心的並行可維護設計在建造中進行細微變化導致的。
燃料供應系統也對建造失誤有極大影響。
通常來說,發電機的柴油燃料通過過濾和控制室從儲油罐泵出來輸送到靠近發電機的日油箱,但在某個項目中,一個有經驗的數據中心開發商爲一個很小的建築空間作出一個過度複雜的設計,燃料供應商沒有正確地進行質量控制和系統搭建,測試驗證團隊也沒有嚴格確認系統建造符合設計意圖,這是最主要的失察行爲。
實際上,當建造認證團隊到達現場,測試驗證團隊僅能手動測試真空管。
操作這些閥門要求人員爬上和爬過管道。
基於承包商的預算,很多系統被移動和重建。
數據中心的擁有者不得不承擔額外的項目時間、測試驗證、整改和建造認證測試。
5、避免建造問題
一旦設計確定並符合質量政策要求,變更控制流程是建造階段管理和控制風險的基本要求。
基於不同原因,很多建造者,甚至一些業主,可能不清楚與數據中心項目相關的變更控制的關鍵性。
沒有項目能完全做到零差錯,但是,好的項目流程和文檔記錄分類將減少錯誤的數量和嚴重程度,有時使錯誤的發生更易修正。
專家建議數據中心的業主、開發商、承包商等所有相關人士,按照以下流程部署數據中心項目,以避免錯誤和其他問題在建造階段發生:
1) 搭建一個有廣泛的數據中心經驗的設計、建造、項目管理團隊。
必要時引進第三方專家幫助落實質量政策要求。
IT羣組可能不理解進度風險或者項目的複雜性。
有經驗的團隊會駁回不符合質量政策的不合理的進程安排或者價值分析建議,避免測試驗證時間壓縮,提升運營可持續性。
另外,有經驗的團隊在運營和驗證方面見多識廣,這點將會對業主有莫大幫助。
表面成本可能增加,但有經驗的團隊帶來更高的投資回報。
此外,運營應該成爲設計和建造團隊從一開始的一部分。
把運營也納入變更管理,有機會分享和學習數據中心如何運行的關鍵信息,包括設立時間點,設備輪換,變更管理,培訓,節省庫存,這是日常運營和事件處理時非常基本的要素。
2) 第三方驗證確保數據中心業主達到設計目標
專家認爲,第三方驗證幫助改進承包商的表現。
有了驗證,將激勵承包商幹得更好,這可能是因爲驗證時可能會發現建造的“缺斤短兩”並且得佔用承包商的費用整改。
有了第三方驗證,迫使承包商在“曲解”合同和作出沒有經驗的項目工程師和業主代表可能發現不了的變動時,更爲謹慎。
由中立的、第三方機構做出的認證和驗證更有效果。
不會受到設計方或建設方等利益方的影響。
測試驗證團隊應該關注設計和安裝是否滿足質量政策要求:如果在驗證階段沒有識別出異常事件的根源,那運營階段一定會再次發生。
第三方驗證和認證提供設計變更和價值工程的專家評審。
現實中建造過程常會一團亂:現場團隊只顧盯着預算和時間管理,可能會迷失“初心”,而獨立第三方機構不受項目壓力影響,審覈採購文件中的信息邀請書、價值工程、設計變更等,幫助項目按軌道前進。
專家認爲,當發現設計出現偏差時,一個組織嚴密的建造流程,包括系統聯調和故障模擬的測試驗證,以及數據中心等級認證,將有能力盡早發現問題,以減少額外支出或整改。
進入TIER等級認證流程再去檢查設計和建造問題或者發現一個數據中心不是業主希望的在線可維護或者容錯,已經爲時甚晚或者改造代價甚高。
當然,這也同時說明了第三方機構的價值:發現了存在的問題,幫助企業挽救了一個潛在的事件,避免故障發生。

沒有留言:

張貼留言