英偉達 Blackwell 芯片又又又曝問題，老黃大半年沒搞定，微軟們被迫換貨、換方案

熱設計網(wǎng) 2024-11-20

英偉達Blackwell芯片過熱問題推遲交付，AMD推出新品挑戰(zhàn)。

據(jù) The Information 最新報道，英偉達下一代 Blackwell 芯片在高密度服務器機架中出現(xiàn)嚴重過熱問題，導致設計變更和客戶方面的部署延遲。這讓 Google、Meta 和微軟等主要客戶對能否按時部署 Blackwell 產(chǎn)生擔憂。

過熱問題或拖累交付計劃

英偉達早在今年 3 月發(fā)布了 Blackwell 系列產(chǎn)品，原計劃是 2024 年第二季度發(fā)貨，但之前已經(jīng)因為設計缺陷而推遲。

據(jù)報道，Blackwell GPU 在高密度服務器機架中面臨嚴重的過熱問題。這些高密度服務器機架集成了 72 塊 AI 芯片，每個機架功耗高達 120kW。但高密度和高功耗的設計帶來了散熱難題，不僅限制了 GPU 性能，還可能損壞硬件組件。

為解決這一問題，英偉達不得不多次調(diào)整機架設計，并對冷卻系統(tǒng)進行工程修訂。據(jù)悉，英偉達已指示供應商實施多項改進措施。

英偉達對此回應稱，散熱問題和設計變更是技術(shù)開發(fā)中的正常流程，并重申正在與云服務商和供應商合作，確保最終產(chǎn)品符合性能和可靠性要求。

戴爾宣布，基于英偉達 GB200 NVL72 架構(gòu)且采用液冷技術(shù)的服務器機架已發(fā)貨

在等待 Blackwell 問題解決的同時，一些客戶已開始考慮替代方案。據(jù)報道，部分客戶比如微軟，已計劃通過更換部分組件來定制 Blackwell 機架，以適應其數(shù)據(jù)中心需求。

一位云計算公司高管透露，他們正在增加當前一代 Hopper 芯片的采購量。分析認為，這可能在短期內(nèi)提升英偉達的收入，尤其是 Hopper 芯片的利潤率較高。然而，這種轉(zhuǎn)向也可能削弱未來對 Blackwell 及其 NVLink 服務器的需求，對英偉達的長期增長構(gòu)成潛在威脅。

在散熱問題之前，因為封裝設計的問題，Blackwell 芯片的發(fā)布至少被推遲了三個月。Blackwell 芯片采用臺積電的 CoWoS-L 封裝技術(shù)，通過局部硅互連（LSI）橋?qū)崿F(xiàn)高達 10 TB/s 的數(shù)據(jù)傳輸速度。然而，GPU 芯片、LSI 橋和主板之間的熱膨脹特性不匹配，曾導致芯片變形和系統(tǒng)故障。

為解決這一問題，英偉達調(diào)整了芯片結(jié)構(gòu)，并重新設計模具，最終在 10 月底完成了修正。

Tom’s Hardware 指出，盡管此類調(diào)整在大規(guī)模技術(shù)推廣中很常見，但還是可能會進一步推遲 Blackwell 的預期發(fā)貨時間。

Blackwell 需求驚人，性能表現(xiàn)屢創(chuàng)新高

Blackwell 芯片自發(fā)布以來，市場需求和關注度一直很高。黃仁勛在此前采訪中曾多次表示，市場對 Blackwell 芯片的需求強到“瘋狂（insane）”。

在近期的 MLPerf Training 4.1 基準測試中，Blackwell GPU 也繼續(xù)展現(xiàn)領先的性能。

上周，英偉達公布了 Blackwell GPU 在 MLPerf v4.1 AI 訓練工作負載方面的成績——在 MLPerf Training 4.1 的測試中，訓練 Llama 270B 模型的速度較前代 Hopper GPU 快了達 2.2 倍。此外，得益于 HBM3e 高帶寬內(nèi)存的應用，Blackwell僅需 64 塊 GPU 即可完成此前需 256 塊 Hopper GPU 才能達到的計算任務。

與此同時，Hopper 平臺也在持續(xù)優(yōu)化。在本輪 MLPerf 訓練測試中，Hopper 的每 GPU GPT-3 175B 訓練性能比首次引入該基準時提高了 1.3 倍。

分析師普遍認為，AI 應用的發(fā)展仍處于早期階段，Blackwell 的推出將繼續(xù)推動英偉達業(yè)績增長。摩根士丹利預計，Blackwell 新產(chǎn)品線將在 2025 年第一季度提升公司收入，預計銷售額將在 50 億至 60 億美元之間。

隨著 Blackwell 預計于 2025 年 1 月底開始大規(guī)模交付，其實際表現(xiàn)能否滿足市場預期，將成為接下來觀察的重點。

AMD 推出新款 AI 芯片，挑戰(zhàn) Blackwell

在英偉達努力解決技術(shù)問題的同時，AMD 也在加速進軍 AI 芯片市場。上個月，AMD 宣布推出全新 AI 芯片Instinct MI325X，并且計劃在 2024 年底前開始生產(chǎn)。AMD 的這一動作被認為是對英偉達在 GPU 市場主導地位的挑戰(zhàn)。

目前，英偉達的 GPU 在 AI 芯片市場占據(jù) 90% 以上份額，而 AMD 一直穩(wěn)居第二。此次發(fā)布的 MI325X 是去年推出的 MI300X 的繼任者，AMD 計劃每年發(fā)布一款新芯片，以更快響應市場需求并縮小與英偉達的差距。

AMD 預計，到 2028 年，AI 芯片市場規(guī)模將達到 5000 億美元。AMD CEO 蘇姿豐表示，“AI 需求正在迅速超出預期，全球范圍內(nèi)的投資仍在加速?！痹谛阅芊矫?，蘇姿豐表示，MI325X 在處理 Meta 的 Llama 3.1 模型時推理性能比 Nvidia H200 高出 40%。

雖然 AMD 沒有宣布新的客戶名單，但公司此前已透露過 Meta、微軟和 OpenAI 正在使用其 AI 芯片的消息。AMD 也強調(diào)，其芯片在生成內(nèi)容和預測類 AI 應用中具有優(yōu)勢，這得益于其先進的內(nèi)存設計。

然而，英偉達的 CUDA 語言已成為 AI 開發(fā)的事實標準，其技術(shù)生態(tài)和市場優(yōu)勢仍然是 AMD 最大的競爭障礙。有分析指出，隨著 Meta、微軟等云巨頭對 AI 需求的持續(xù)增長，AMD 有機會通過價格和性能的差異化策略，吸引更多客戶，尤其是在生成式 AI 模型推理等細分領域。

參考鏈接：

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers