98新超碰,人人澡人人爱,麻豆精品传媒国,碰国产久久久,思思99热久在线播放,青青草五月婷婷,日韩国产精品在线,久久亚洲成人,久久88视频网站

熱設計網(wǎng)

英偉達、華為超節(jié)點技術(shù)剖析,引領算力新高度!

熱設計

來源:CDCC





01 引言





數(shù)字經(jīng)濟時代,算力如同 “新引擎” 對各行業(yè)的關鍵驅(qū)動作用,從互聯(lián)網(wǎng)到制造業(yè),從醫(yī)療到科研等領域,算力需求的增長推動了技術(shù)的革新與產(chǎn)業(yè)的升級。作為算力時代的核心資產(chǎn),算力中心的發(fā)展也日新月異,近期WAIC上多家國產(chǎn)GPU廠商發(fā)布了他們的超節(jié)點產(chǎn)品,掀起了有關超節(jié)點這一技術(shù)的討論熱潮。


超節(jié)點(SuperPod)并非傳統(tǒng)意義上的單一硬件設備,而是指具備集中化管理、大規(guī)模資源整合、高性能調(diào)度能力的“邏輯節(jié)點”或“物理節(jié)點集群”。它是數(shù)據(jù)中心為應對海量數(shù)據(jù)處理、高并發(fā)業(yè)務、復雜集群管理需求而演化出的核心組件,本質(zhì)是通過“資源聚合”和“功能升級”,解決普通節(jié)點(如單一服務器)在規(guī)模、效率、可靠性上的瓶頸。


本文嘗試從超節(jié)點的視角探討未來算力中心發(fā)展趨勢,借助分析這一行業(yè)走向來看未來算力中心的建設可能會出現(xiàn)哪些方面的技術(shù)創(chuàng)新。





02  超節(jié)點技術(shù)剖析





訓練側(cè),大模型在Scaling Law的飛輪下,參數(shù)量已經(jīng)突破萬億級別,海量參數(shù)的訓練過程中對于顯存的容量和帶寬都提出了更高的要求。此外,TP、EP等多種并行計算方式的引入帶來了大量All-to-All 通信,訓練所需的大集群面臨如何動態(tài)地將模型工作中的負載分配給整個GPU系統(tǒng),實現(xiàn)更高的GPU利用率的考驗。


而推理側(cè),隨著我們從生成式AI(Generative AI)向代理AI(Agentic AI)時代演進,推理產(chǎn)生的token量正以更陡峭的斜率在成倍增加。為了使數(shù)據(jù)中心這個AI工廠在更大的吞吐量下有更低的時延,需要從計算、通信、軟件架構(gòu)等多個層面共同進行優(yōu)化,以追求極致的經(jīng)濟效益。


image.png


傳統(tǒng)數(shù)據(jù)中心以服務器為基本單元,通過算力設備的增加來實現(xiàn)算力的增長,其通信帶寬及計算資源協(xié)同發(fā)展面臨瓶頸,已經(jīng)無法滿足這種大規(guī)模、高并發(fā)算力需求,算力的有效利用率較低。


為了在有限的資源下實現(xiàn)更高效的計算,超節(jié)點應運而生,通過對計算、存儲、通信等要素進行系統(tǒng)性的重構(gòu),使得單節(jié)點內(nèi)的算力密度出現(xiàn)成倍的提升,打造出機架級的超級計算單元,整個系統(tǒng)的能耗比得到顯著優(yōu)化。





03 典型的超節(jié)點及其構(gòu)成





1、英偉達NVL72:高密度柜集大成者


NVL72 在單個機柜內(nèi)通過 NVLink 技術(shù)將36個Grace CPU和72個 Blackwell GPU整合在一起,形成一個高帶寬、低延遲的統(tǒng)一計算單元。每顆 B200 GPU支持18條NVLink 5鏈路,每條鏈路雙向帶寬100 GB/s,72顆這樣的GPU通過9個NVLink Switch Tray形成總帶寬為130TB/s的全mesh網(wǎng)絡,在這個網(wǎng)絡里,所有GPU之間實現(xiàn)了點對點的全互聯(lián),可以任意訪問其他GPU的內(nèi)存空間。


NVLink解決了傳統(tǒng)分布式訓練中計算與通信失衡的根本矛盾,這種全互聯(lián)無阻塞架構(gòu),極大減少大模型訓練中的通信瓶頸,消除因通信延遲導致的計算單元空轉(zhuǎn),使得單機柜的算力密度極大提升。NVL72是一次AI算力范式的革新,一個機柜相當于一個濃縮的傳統(tǒng)集群,將大模型訓練從分布式協(xié)作升級為超級單體計算。


image.png


2、華為CM384:系統(tǒng)級的重構(gòu)


CloudMatrix 384由384顆昇騰910C芯片通過全連接拓撲結(jié)構(gòu)互聯(lián)而成。CloudMatrix 384超級節(jié)點橫跨16個機架,其中12個計算柜共承載48個昇騰910C服務器節(jié)點(總計384個NPU),以及4個通信設備柜(靈衢總線設備柜);每個計算柜包含4個Atlas 900 A3 SuperPoD計算節(jié)點,每個節(jié)點包括8個昇騰910C神經(jīng)網(wǎng)絡處理單元和4個鯤鵬中央處理器。


這種設計通過規(guī)模效應實現(xiàn)性能躍升,盡管單顆昇騰芯片的性能僅為英偉達Blackwell GPU的三分之一,但五倍于后者芯片的數(shù)量足以彌補這一差距。完整的CloudMatrix系統(tǒng)現(xiàn)在可以提供300PFLOPs的密集型BF16計算能力,幾乎是GB200 NVL72的兩倍。其總內(nèi)存容量超過后者的3.6倍,內(nèi)存帶寬提升2.1倍,標志著華為及中國AI系統(tǒng)能力已全面躋身國際領先行列。


昇騰384采用對等計算架構(gòu),打破傳統(tǒng)以CPU為中心的層級架構(gòu)。CPU和NPU在邏輯上地位平等,均可直接通信,無需通過CPU中轉(zhuǎn)。這種設計降低了通信延遲,提供了系統(tǒng)整體性能,尤其適用于大規(guī)模分布式計算場景。


image.png





04 發(fā)展超節(jié)點面臨的挑戰(zhàn)與機會





超節(jié)點作為系統(tǒng)級的重構(gòu),涉及到諸多硬件層面的挑戰(zhàn),在算力密度指數(shù)級增加的情況下,電力供應及散熱等配套硬件均面臨極限挑戰(zhàn),未來如何在規(guī)?;牟渴鹬腥テ胶庑阅芘c成本并實現(xiàn)穩(wěn)定的運行,將成為下一步行業(yè)實踐中的主要優(yōu)化方向。


1、芯片集成密度帶來散熱挑戰(zhàn)


算力芯片的性能提升帶來的功耗增長明顯,以英偉達為例,H100單芯片功耗約為700W,而至B200時期單芯片的功耗增長至1200W,機架內(nèi)的高功率密度使得風冷幾乎失效,未來服務器內(nèi)液冷成為標配,目前各家廠商發(fā)布的超節(jié)點產(chǎn)品均搭配液冷作為冷卻方案。


液冷作為一種新興的冷卻技術(shù),通過液態(tài)冷卻工質(zhì)流動方式替代風冷的空氣換熱模式,可以更好地降低芯片核心溫度,延長芯片的使用壽命。目前主流的液冷方式包括冷板式和浸沒式,冷板式液冷通過金屬冷板內(nèi)部冷卻工質(zhì)的流動對接觸面進行冷卻,浸沒式液冷通過將電子元器件直接浸入冷卻工質(zhì)中進行接觸式的散熱。


但是如今液冷在實際使用中仍面臨諸多工程上的問題,以浸沒式為例,因為冷卻工質(zhì)直接接觸芯片和服務器內(nèi)其他部件,容易對于高速信號的完整性造成影響,對于材料兼容性也提出較大要求;此外,機架使用過程中產(chǎn)生的熱點分布較為不均,主要集中在GPU、交換機芯片等地方,浸沒式液冷在使用中容易因為熱點表面的氣泡而導致冷卻效果受到影響,嚴重的情況下甚至導致芯片失效。


冷板式液冷憑借其相對低的改造成本以及較為完善的生態(tài)率先在多個行業(yè)有了典型部署,相比于浸沒式,冷板式在應用上更為簡單,用戶的使用習慣及運維模式與風冷也基本相同。但是盡管冷板式技術(shù)已取得顯著進展,未來其在超節(jié)點中的工程落地仍有較多亟待改進的空間。


首先,因為冷板式的冷卻的效率主要取決于冷卻工質(zhì)的溫度及流速,冷卻工質(zhì)如果降到較低溫度,容易在實際使用的過程中在冷板表面形成結(jié)露的現(xiàn)象,未來仍需要探索不同方式對這一現(xiàn)象進行改善;其次,液冷設備的可靠性要求極高,需支持上千次插拔零泄漏,一旦冷卻工質(zhì)泄漏可能會導致設備短路燒毀,為了追求更高的可靠性,未來在材料科學(冷卻液等)和精密制造(冷板結(jié)構(gòu)、機架結(jié)構(gòu))等方面都有可能持續(xù)的進行技術(shù)演進。


2、更高功率帶來電能儲備挑戰(zhàn)


超節(jié)點單機柜功耗普遍突破 100kW(如華為 CM384 達 172.8kW,英偉達 GB200 NVL72 約 120-140kW),而且計算密集型任務的脈沖式負載可能導致峰值功耗飆升,如何在電力方案上設置一定冗余以保障機架內(nèi)硬件的安全成了超節(jié)點發(fā)展必須面臨的挑戰(zhàn)。


機器學習的訓練任務具有強同步性的特點,在執(zhí)行矩陣運算等計算密集型任務時,功率需求瞬間攀升到峰值,而在同步通信或數(shù)據(jù)加載階段,功率則會驟降,這種瞬時功率的波動幅度極大且頻率高,對于供電網(wǎng)絡可能會造成損害,目前為了解決這類的電壓瞬變的問題,各家廠商主要從軟件和硬件層面進行優(yōu)化。


硬件層面,傳統(tǒng) UPS 無法快速響應,需集成超級電容模組(如 Meta 的 Power Capacitance Shelf)平抑波動。超級電容憑借微秒級響應速度和10 萬次以上循環(huán)壽命,可吸收 Iteration 切換時的瞬時功率尖峰。


同時,機柜級電池備份單元(BBU)也采用鋰電池替代鉛酸電池,能量密度提升 3 倍,響應時間縮短至微秒級,形成超級電毫秒級瞬態(tài)加鋰電池秒級穩(wěn)態(tài)的雙時間尺度補償機制。


軟件層面,數(shù)據(jù)中心的供電需要針對性地進行優(yōu)化,主要是基于歷史訓練時產(chǎn)生的數(shù)據(jù)去預測未來的功率曲線,靈活對系統(tǒng)進行預調(diào)度。優(yōu)化后既可以提升能效比,在同樣的能耗下提升系統(tǒng)吞吐量,也能夠提升系統(tǒng)穩(wěn)定性,通過軟硬件協(xié)同的機制平滑抖動。


超節(jié)點技術(shù)推動算力中心架構(gòu)從分散走向集成,以高密度設計革新布局,未來在超節(jié)點的工程實現(xiàn)上仍有眾多環(huán)節(jié)的技術(shù)演進存在多種可能,如何能夠通過液冷、供電系統(tǒng)等方面的優(yōu)化去提升系統(tǒng)穩(wěn)定性成了推動下一代算力中心的核心引擎。


網(wǎng)站末尾圖片.png



標簽: 點擊: 評論:

留言與評論(共有 0 條評論)
   
驗證碼:
和平区| 固安县| 天镇县| 营口市| 南靖县| 天柱县| 旅游| 海阳市| 桂东县| 永川市| 休宁县| 景德镇市| 宕昌县| 阳江市| 南康市| 安国市| 新和县| 搜索| 三江| 龙南县| 封开县| 新竹市| 永丰县| 建德市| 镇远县| 天镇县| 布尔津县| 炉霍县| 勃利县| 博白县| 壤塘县| 阿拉善左旗| 吴堡县| 榆社县| 南部县| 惠水县| 南郑县| 盈江县| 鹿泉市| 柳林县| 大关县|