英特爾高級架構(gòu)師 Dror Shenkar 和 Zuta-Core 研發(fā)副總裁 Shahar Belkin 共同探討數(shù)據(jù)中心冷卻的過去、現(xiàn)在和未來。下一步是什么?
(圖片:Zutacore)
Dror Shenkar,英特爾數(shù)據(jù)中心管理解決方案高級架構(gòu)師 回顧過去10到15年的數(shù)據(jù)中心環(huán)境,服務器機架的功率密度一直穩(wěn)定在3到5千瓦。在此期間,使用冷水機組和機房空調(diào)(CRAC)的風冷數(shù)據(jù)中心足以克服服務器的散熱問題,使數(shù)據(jù)中心設施及其屋頂下的CPU保持在最高溫度以下。這是因為CPU產(chǎn)生的熱量不超過130瓦。 數(shù)據(jù)中心采用架空地板系統(tǒng),以熱通道和冷通道作為主要的冷卻方式。來自精密空調(diào) (CRAC) 和計算機房空氣處理器 (CRAH) 的冷空氣被分配到架空地板下方的空間,然后通過穿孔地板磚進入服務器前方的主要空間。這種方法簡單且多年來最為常見,盡管后來改進的冷卻方法逐漸占據(jù)主導地位,但它至今仍在使用。 近年來,隨著機架功率密度不斷攀升至 10 kW 或更高,風冷配置發(fā)展成為冷熱通道封閉布局,顯著節(jié)省了能源。這些方法背后的理念是通過物理屏障將服務器的冷空氣與服務器的熱空氣隔離,防止它們混合。另一種基于空氣的冷卻方法是機架內(nèi)排熱。這種方法通過機架內(nèi)置的壓縮機和冷卻器來去除熱空氣。 2018年,機架密度持續(xù)增長,接近20 kW,并將風冷系統(tǒng)推向了其最大經(jīng)濟能力。隨著機架密度持續(xù)增長,據(jù)估計,每機架密度已高達100 kW,直接芯片上液冷成為一種可行的解決方案。
Shahar Belkin,Zuta-Core 研發(fā)副總裁
數(shù)據(jù)中心正面臨壓力 人工智能 (AI)、游戲、高性能計算、3D 圖形和物聯(lián)網(wǎng) (IoT) 都需要更快、更復雜的計算服務。快速增長的云服務業(yè)務、邊緣計算的增長以及提供商之間的競爭,使得高效利用數(shù)據(jù)中心空間成為必要,并促使提供商要求每平方英尺配備更多的計算核心。圖形處理器 (GPU) 和中央處理器 (CPU) 產(chǎn)生的熱量越來越多,但其功耗卻持續(xù)增長,從五年前的 100 瓦到 130 瓦以上,到過去兩年投放市場的新型處理器的功耗達到 200 瓦到 600 瓦。事實上,IDC 報告稱,盡管性能增長進一步推高了能源需求,但全球每臺服務器的年能耗仍在增長 9%。 風冷配置能夠很好地應對發(fā)熱量高達 130 W 的處理器,在極限情況下甚至可以容納 200 W 的處理器。超過 200 W 的處理器可以通過風冷來冷卻,但需要更大的機箱尺寸,這不僅浪費機架空間,反而會浪費空間。直接片上液冷似乎是能夠支持高功率處理器的解決方案,既能保持機箱尺寸小巧,又能保持高密度。 液體冷卻最常見的兩種冷卻設計是直接到芯片的冷板或蒸發(fā)器和浸入式冷卻。直接到芯片的冷板位于主板處理器的頂部以散熱。冷板分為兩大類:單相蒸發(fā)器和雙相蒸發(fā)器。單相冷板主要使用冷水,冷水循環(huán)進入冷板吸收熱量,離開服務器時變成溫水/熱水。對于雙相蒸發(fā)器,安全的低壓介電液體流入蒸發(fā)器,冷卻組件產(chǎn)生的熱量使液體沸騰,熱量以蒸汽的形式從蒸發(fā)器釋放出來。然后,以熱水或蒸汽形式存在的熱量被轉(zhuǎn)移到散熱裝置,該裝置使用冷凍水環(huán)路返回到冷卻裝置,或利用自由空氣流動將熱量釋放到外界。 浸入式冷卻需要將大量的介電流體浸入防漏槽中,并將整個硬件浸沒其中。介電流體吸收熱量,在某些情況下會變成蒸汽,冷卻或凝結(jié),然后以流體的形式返回冷卻槽。 無論具體的冷卻方法是風冷還是液冷,監(jiān)控服務器溫度都是冷卻系統(tǒng)的關(guān)鍵部分。在所有這些情況下,都需要對服務器及其內(nèi)部組件進行精細的溫度監(jiān)控,以確保服務器健康高效地運行。
數(shù)據(jù)中心冷卻的未來就在眼前 不同公司推出了許多創(chuàng)新技術(shù),有望改變數(shù)據(jù)中心冷卻的格局,從使用海水或雨水減少寶貴的自然資源的使用,到利用人工智能分析數(shù)據(jù)中心的工作方式并實時調(diào)整冷卻方式,再到可以監(jiān)控機架中服務器溫度和濕度的冷卻機器人。 當負責監(jiān)督高密度計算環(huán)境的數(shù)據(jù)中心經(jīng)理獲得必要的數(shù)據(jù),以提高房間的整體設定溫度時,此功能可以顯著降低整個數(shù)據(jù)中心的年度冷卻成本。 但當我們展望數(shù)據(jù)中心和冷卻系統(tǒng)的未來時,這個未來就在眼前。傳統(tǒng)數(shù)據(jù)中心的散熱設計可能導致熱點,而當今的高密度計算環(huán)境由于持續(xù)處理產(chǎn)生的熱量,更是雪上加霜。如果數(shù)據(jù)中心管理人員無法了解設備的實際功耗,這可能會導致IT人員過度配置,導致能耗遠遠超出維持安全冷卻裕度所需的水平。事實上,Gartner估計,由于每千瓦時(kwh)成本的上漲,持續(xù)電力成本每年至少上漲10%,尤其是在高功率密度服務器領域。 幸運的是,有一些數(shù)據(jù)中心管理解決方案可以改進數(shù)據(jù)驅(qū)動的決策,并通過提供功耗、熱耗、服務器運行狀況和利用率的可見性來實現(xiàn)更精確的運營控制。利用數(shù)據(jù)中心管理解決方案的冷卻分析功能,IT 人員可以通過安全地提高房間溫度來降低冷卻成本,從而提高電源使用效率 (PUE) 和能源效率,同時持續(xù)監(jiān)控硬件是否存在溫度問題。 當負責監(jiān)管高密度計算環(huán)境的數(shù)據(jù)中心經(jīng)理獲得必要的數(shù)據(jù),從而能夠提高房間的整體設定溫度時,這項功能可以顯著降低整個組織數(shù)據(jù)中心的年度制冷成本。舉個例子,一家全球網(wǎng)絡安全公司根據(jù)每臺服務器的歷史溫度讀數(shù),將其服務器機房的溫度提高了 3 °C,從而實現(xiàn)了全年制冷成本的25% 的總體節(jié)省。 如今,數(shù)據(jù)中心管理人員面臨著多重全球性挑戰(zhàn)。這些挑戰(zhàn)包括保護快速增長的數(shù)據(jù)量和日益增多的關(guān)鍵任務應用程序、管理眾多遠程位置,以及實施日益緊迫的可持續(xù)發(fā)展計劃,而這些計劃與不斷上漲的能源成本之間難以取得平衡。 為了解決這些及其他挑戰(zhàn),數(shù)據(jù)中心管理工具不僅提供高數(shù)據(jù)粒度的實時環(huán)境監(jiān)控,而且這些軟件解決方案還提供熱數(shù)據(jù)的預測性分析,能夠在溫度問題引發(fā)嚴重事故之前發(fā)現(xiàn)它們。此外,監(jiān)控和匯總實時功耗和熱消耗數(shù)據(jù)有助于 IT 人員根據(jù)實際利用率分析和管理數(shù)據(jù)中心容量,從而盡可能高效地利用電力和冷卻基礎設施。

標簽: 液冷、數(shù)據(jù)中心等 點擊: 評論: