發布時間:2026-03-14
瀏覽次數:
諗吓都驚。一間數據中心,入面幾百幾千部server喺度行緊,所有嘢都運作正常——直至你機房個精密冷氣(Precision AC)突然跳掣,或者出風口唔凍。呢個時候,牆上嘅溫度計個數字可能以每分鐘一度嘅速度向上飆,警報聲大響,而你嘅心跳,肯定快過佢。數據中心精密冷氣維修,同你屋企部窗口機維修,根本係兩個世界嘅事。佢唔單止係整番凍部機咁簡單,而係一場同時間競賽、關乎業務連續性同可能數以百萬計損失嘅緊急行動。點解佢咁重要?壞咗有咩即刻要做?點樣揾人整先唔會愈整愈衰?今次我哋就拆解呢個睇落好專業,但又關乎每個IT人飯碗嘅題目。
數據中心嘅冷氣,我哋叫精密空調,佢同普通冷氣最大分別,在於「精密」二字。普通冷氣係為人服務,覺得涼就得,溫差幾度都接受。但精密空調係為機器服務,要求24x7不間斷,全年無休,而且要將溫度同濕度控制喺一個極窄嘅範圍內(例如22°C±1°C,濕度50%±5%)。佢仲要應付server散發出嚟嘅超高熱密度。所以,佢嘅設計複雜好多,零件亦都專業好多,一壞起上嚟,唔係街邊師傅拎個工具箱就搞得掂。
點解數據中心冷氣一壞就係大事?
首先你要明,數據中心嘅熱量有幾誇張。一機櫃(Rack)放滿高密度server,散出嘅熱量可以等於十幾個家用冷氣嘅制冷量。精密空調就係咁多部server嘅「生命維持系統」。
第一,溫度失控極快。 冇咗製冷,機房溫度可以喺十幾分鐘內由22度升到30度以上。高溫會導致server自動降頻保護,效能大跌;再高啲,就會觸發硬件保護而強制關機,服務直接中斷。
第二,濕度同樣關鍵。 太濕會引致結露,短路電子零件;太乾會產生靜電,一樣會擊穿晶片。精密空調就係要同時精準控制呢兩樣嘢。
第三,牽一髮動全身。 好多數據中心嘅冷氣系統係N+1或者2N冗餘設計,即係有一部後備。但假如你唔熟個系統,亂咁維修或重啟,可能會影響到後備系統嘅切換邏輯,搞到連鎖故障,那就真是「攬炒」。
所以話,當警報響起,你面對嘅唔係一部壞冷氣,而係一個即將引爆、會炸燬你IT服務嘅計時炸彈。我嘅睇法係,處理呢類危機,流程同知識,比工具更重要。你第一步做咩,決定咗件事會變災難定係有驚無險。
精密冷氣常見故障同「死狀」
佢哋唔係神,都會壞。常見問題大概分幾類,我試下用我理解到嘅方法講:
完全唔著/跳總掣:可能係壓縮機起動器壞、風扇摩打燒咗,或者電路板(我哋叫控制器)出問題。呢個最嚇人,因為制冷完全停止。
有風出,但唔凍:呢個好蠱惑。可能係雪種唔夠(有漏)、壓縮機本身效能下降、或者個叫「膨脹閥」嘅零件塞咗。你會見到溫度慢慢升,但部機好似仲好努力喺度行緊。
濕度控制失靈:個加濕器(Humidifier)或者除濕功能(其實就係制冷時順便抽濕)壞咗。螢幕顯示濕度數字亂咁跳,或者完全唔跟設定。
嘈音異常或漏水:風扇軸承磨損會好嘈。去水喉塞咗就會漏水,喺機房入面滴水,隨時滴中電掣房,危險過屋企漏水一百倍。
講到呢度,你可能會問:「咁多可能性,我點知係邊樣?」老實講,除非你係該牌子嘅認證工程師,否則好難一眼斷症。但你可以做嘅,係準確觀察同報告。記低部機顯示屏嘅錯誤代碼(Alarm Code)、聽下異響係邊度傳出、睇下有冇漏水位置。呢啲信息對嚟緊嘅維修師傅極之寶貴。
警報響了!緊急應對五部曲
假設現在是凌晨三點,監控系統發訊息話你知「CRAC Unit 03 Failure」。你應該點做?記住以下步驟,唔好亂。
第一步:確認同隔離。立即遠程或親身去確認邊一部機出事。睇下控制面板,記低所有警報信息。如果情況許可,將故障機由供電系統中隔離(關閉供電),防止進一步損壞或危險。但千祈唔好亂按其他正常運行中嘅冷氣機!
第二步:啟動冗餘容量。如果你嘅設計有後備(冗餘)冷氣,確認佢已經自動啟動並接手制冷負載。如果冇自動啟動,就要手動啟動佢。呢個時候你會好感激當初投資落冗餘系統嘅決定。
第三步:環境監控。死死地盯住機房溫度同濕度讀數。如果溫度持續上升,超過安全閾值(例如28°C),就要啟動緊急應變計劃,可能包括將非關鍵工作負載遷移(Migration)去其他數據中心,或者準備有序關閉部分設備。
第四步:聯繫支援。立即致電你嘅維修保養合約(Maintenance Contract) 供應商,或者可靠嘅緊急支援團隊,例如搭棚顧問平台上一些專做關鍵基礎設施嘅團隊。準確報告機型、編號、錯誤碼同你觀察到嘅現象。
第五步:記錄與溝通。將整個事件嘅時間線、採取嘅行動、同供應商嘅通話記錄全部寫低。同時通知相關業務部門嘅負責人,等佢哋知悉潛在風險。
呢個過程,緊張但必須有序。我見過有客戶一慌就撳咗正常部機嘅掣,結果兩部一齊停,真係喊都無謂。記住,你嘅冷靜就係機房嘅鎮靜劑。
日常保養 vs 緊急維修:點樣揀服務商?
點樣避免陷入上述嘅午夜驚魂?答案就係專業嘅預防性保養。下面個表可以睇到,日常保養同出事先維修,分別有幾大:
所以點揀服務商?我嘅心得係,睇以下幾點:
品牌認證:間公司有冇你所用冷氣品牌(例如Stulz、Liebert、Daikin)嘅官方認證工程師?有認證代表佢哋有原廠培訓同技術支援,拎到真正嘅零件。
案例同經驗:問佢哋有冇做過類似規模嘅數據中心或機房項目?可唔可以俾參考?問到具體點處理冷切換(Cooling Cutover)呢類高風險操作。
服務清單透明度:份保養合約寫明每年嚟幾多次?每次做咩?檢查壓縮機電流?清洗冷凝器?校準溫濕度感應器?清單愈細愈好。
緊急支援能力:係咪7x24?有幾多個駐場工程師?有冇自己嘅零件倉?
揾人整數據中心冷氣,同揾醫生做心臟手術差唔多,你唔會揾個普通科醫生去做,係咪?要揾就揾專科。為咗慳少少保養費,而賭上業務停擺嘅風險,點計都唔划算。
總之,數據中心精密冷氣,你當佢係一個極度重要但又沉默嘅同事。你定期同佢做身體檢查(保養),佢就全年無休保護你啲server。你忽視佢,佢隨時喺最唔應該嘅時間請病假,到時全公司嘅人都會嚟「問候」你。管理好佢,就係管理好成個IT服務嘅生命線。
常見問題 (FAQ)
Q: 我個細機房只有兩部精密冷氣,係咪一定要買好貴嘅保養合約?
A: 規模細唔代表風險細。兩部機如果行「1+1」冗餘,壞一部仲頂得住,但如果保養不善兩部一齊壞,後果一樣嚴重。對於細規模,可以考慮「按次保養」(Time & Material),每年固定安排兩次全面檢查,費用比全包合約低,但同樣能有計劃地發現問題。
Q: 精密冷氣嘅雪種係咪同家用冷氣一樣?係咪經常要「加雪種」?
A: 唔一定一樣,精密空調常用R410A或R134a等雪種。關鍵係,精密空調在正常無泄漏情況下,幾乎永遠不需要添加雪種。如果經常要加,一定係系統有泄漏點,必須徹底查找並修復,否則會損害壓縮機並持續影響效能。
Q: 數據中心環境監控系統(BMS)顯示溫度正常,但仍有server過熱告警,可能同冷氣有關嗎?
A: 非常有關。這通常指向「局部熱點」(Hot Spot)問題。可能原因是冷氣送風或回風的氣流組織(Airflow)不善,例如機櫃佈局阻擋了氣流,或者冷熱通道(Cold/Hot Aisle)沒有密封好。這需要對冷氣風量、機櫃排列及盲板(Blanking Panel)使用情況進行整體審查,而非冷氣本身故障。
Q: 更換精密冷氣嘅壓縮機,大概需要停機多久?
A: 這是一個重大工程。時間取決於機型、零件供應及施工複雜度。如果備有完整冗餘,可在不影響機房製冷下進行,更換本身可能需8-24小時。但若無冗餘,則必須安排在維護窗口,並可能需租用臨時制冷設備(便攜冷氣)來支援,整個過程可能需要數天。因此凸顯了預防性保養、避免壓縮機燒燬的重要性。
Q: 室外嘅冷凝器(Condenser)需要保養嗎?對機房內冷氣效能有何影響?
A: 極度需要。室外冷凝器就像冷氣機的「散熱窗」。如果其翅片被灰塵、柳絮、樹葉堵塞,散熱效率就會急降,導致機房內冷氣機的壓縮機高壓警報、制冷能力下降且耗電大增。必須定期(如每季度)清潔室外機,並確保周圍通風良好。
whatsapp:
00852 37264282
cs@scaffoldingcompanyhk.com