98新超碰,人人澡人人爱,麻豆精品传媒国,碰国产久久久,思思99热久在线播放,青青草五月婷婷,日韩国产精品在线,久久亚洲成人,久久88视频网站

熱設計網

數(shù)據中心芯片,要求很高

熱設計

來源:半導體行業(yè)觀察

“在汽車、飛機、人工智能工廠的設計領域……你必須做到完美,”英偉達首席執(zhí)行官黃仁勛上個月在CNBC節(jié)目中表示?!霸蛟谟冢@其中牽涉到太多利益?!?/span>

汽車和飛機必須極其可靠,因為一旦發(fā)生故障,就會造成人員傷亡。在人工智能數(shù)據中心,系統(tǒng)故障雖然不會造成人員傷亡,但其經濟影響卻極其巨大,因為亞馬遜、谷歌和微軟都是市值萬億美元的公司。它們的客戶依賴它們來驅動龐大的經濟引擎,而一旦系統(tǒng)宕機,這些引擎就無法盈利。

例如,12月初,伊利諾伊州一個數(shù)據中心發(fā)生10小時的故障,導致全球貨幣和大宗商品市場(從黃金到石油再到利率)的交易暫停。

數(shù)據中心可靠性標準與策略

云服務提供商在全球運營著數(shù)百個巨型數(shù)據中心,這些數(shù)據中心通過數(shù)千英里的光纖連接在一起。它們是世界上規(guī)模最大、最復雜的計算機。

數(shù)據中心基礎設施的設計旨在實現(xiàn)極高的可靠性,并提供多種選擇。例如,谷歌提供的正常運行時間從 99.9%(每月最大停機時間為 43 分鐘)到 99.999%(每月最大停機時間僅為 26 秒)不等。我的筆記本電腦崩潰的次數(shù)都比這多。如此高的可靠性是通過跨多個區(qū)域(數(shù)據中心)部署軟件來實現(xiàn)的,該軟件能夠快速地在數(shù)據中心之間轉移負載,從而避免單點故障。這需要投入一定的資源來實現(xiàn)冗余的并行計算和存儲。如果您托管的是一個全球交易平臺,那么這些投入是值得的。存儲采用雙副本設計,因此即使一個副本丟失或不可用,系統(tǒng)也能依靠另一個副本繼續(xù)運行。

數(shù)據中心遠不止是半導體設備那么簡單。為了確保最高的可靠性,數(shù)據中心配備了冗余冷卻系統(tǒng)。如果一套系統(tǒng)發(fā)生故障,另一套系統(tǒng)會立即接管。電力分配也采用了冗余設計,備用單元會在必要時啟動。此外,如果電網斷電,電池或發(fā)電機也會自動啟動供電。

半導體可靠性的高層戰(zhàn)略與其他數(shù)據中心部分類似:

  • 設計高可靠性的組件;

  • 設計組件和系統(tǒng),以便及早發(fā)現(xiàn)故障跡象并優(yōu)先修復;

  • 增加冗余,以便在運行過程中某個組件發(fā)生故障時,能夠迅速識別出故障原因,并由備用組件接管。

數(shù)據中心可靠性的半導體架構策略

數(shù)據中心芯片的設計必須盡可能可靠,但故障仍然難以避免。因此,數(shù)據中心芯片和子系統(tǒng)需要采用容錯架構。

數(shù)據中心擁有成千上萬臺相同的服務器、交換機等設備。如果一臺服務器或機架出現(xiàn)故障,可以通過其他方式進行替換。

ECC:數(shù)據中心CPU使用ECC內存以提高可靠性。自HBM2以來,HBM內存就集成了片上ECC。HBM3則使用更強大的里德-所羅門碼。HBM還具有冗余數(shù)據總線通道,因此如果在運行過程中出現(xiàn)通道故障,可以將其重新映射到備用功能通道。

網絡冗余擴展:NVLink 是英偉達的超級競爭優(yōu)勢,它允許更大的 pod 規(guī)模,同時保持 GPU 之間極低的延遲。但為什么英偉達使用的是 NVLink72 而不是 64 呢?英偉達建議使用 64 個 GPU 運行,并保留 8 個作為備用(或處于待機狀態(tài),運行低優(yōu)先級、可搶占式工作負載)。同樣,雖然 64 個 GPU 只需要 16 個交換機,但 NVLink 卻使用了 18 個交換機。在 NVLink 中,每個交換機都連接到每個 GPU。這不僅允許調節(jié) GPU 之間的帶寬,還意味著即使某個交換機發(fā)生故障,也可以在不影響性能的情況下進行映射。在 NVLink72 持續(xù)運行的情況下,可以熱插拔故障的交換機或計算托架,從而恢復完整的冗余,實現(xiàn)最高的可靠性。

幾個月前,SemiAnalysis 報道稱,NVL72 背板的信號完整性問題(至少在當時)會導致數(shù)據錯誤,而這些錯誤可能需要數(shù)小時才能定位和修復。NVL72 的修復時間比上一代產品長一個數(shù)量級。隨著電頻率的提高以提升芯片性能,由于信號完整性問題,數(shù)據傳輸?shù)目煽啃詴档?。為了利用光傳輸?shù)母h傳輸距離來增大芯片尺寸,還需要通過切換到光傳輸來提高可靠性,因為光傳輸不存在串擾或電磁信號完整性問題。

橫向擴展網絡冗余:如今的橫向擴展系統(tǒng)主要基于以太網,以太網采用數(shù)據包傳輸方式,并能確保數(shù)據包的重試和備用路由(如有需要)。每個數(shù)據包都會進行錯誤檢查和數(shù)據有效載荷的糾正。快速生成樹協(xié)議 (RSTP) 能夠在幾毫秒內將故障的主路徑切換到備用路徑。這種網絡的魯棒性非常高,但代價是延遲。盡管如此,目前所有數(shù)據中心仍然采用這種方式連接機架和設備。

光路開關:在去年12月的瑞銀科技大會上,相干公司首席執(zhí)行官吉姆·安德森表示:“我們非常喜歡OCS?!?OCS即光路開關。谷歌率先開發(fā)了OCS技術,并將其應用于TPU超級芯片。光路開關能夠在幾毫秒內將數(shù)百路光纖輸入重新路由到數(shù)百路光纖輸出。這帶來了諸多優(yōu)勢。其中一項優(yōu)勢是能夠繞過故障芯片快速重新路由高帶寬數(shù)據。

熱插拔:如果可能的話,系統(tǒng)應該設計成模塊化和熱插拔的,這樣如果需要更換某個部件,就可以快速、輕松地完成,并將中斷降到最低。

微信截圖_20260119094842.jpg

半導體元件設計可靠性

與其他大多數(shù)半導體應用不同,機械工程對于數(shù)據中心的可靠性至關重要。如今,人工智能加速器采用封裝形式,將多個 XPU 和 HBM 芯片集成在有機基板上的 CoWoS 中介層上,并通過焊接方式連接到印刷電路板 (PCB) 上。這種“三明治”結構中各元件之間材料和溫度的差異,以及層間數(shù)千個鍵的相互作用,都可能導致物理連接出現(xiàn)翹曲和斷裂的風險。

數(shù)據中心運行的某些方面對可靠性的要求較低:

工作溫度: Nvidia Blackwell GPU 的最高工作溫度為 85°C 結溫(晶體管的溫度)。AMD Epyc 處理器的典型最高工作溫度為 95°C 結溫,但可短暫達到 105°C 結溫。這些溫度遠低于汽車級應用(最高可達 125°C 結溫),原因有三:1)功耗隨溫度呈指數(shù)級增長;2)隨著溫度升高,可靠性下降——例如金屬遷移;3)在數(shù)據中心,昂貴的冷卻系統(tǒng)能夠有效降低功耗并提高可靠性,因此具有經濟可行性。

使用壽命:汽車的使用壽命通常為 10 年、15 年或 20 年。但數(shù)據中心的使用壽命要短得多?!度A爾街日報》近期討論了主要超大規(guī)模數(shù)據中心出于會計目的的預計使用壽命,其范圍在 5 到 6 年之間。從這個意義上講,數(shù)據中心就像 iPhone 一樣。5 年或更長時間后,就會出現(xiàn)更好的產品,因此升級而不是繼續(xù)運行舊技術更經濟,尤其是在世界大部分地區(qū)電力供應有限的情況下。即使使用壽命很短,可靠性設計仍然至關重要,以確保在使用壽命期間的故障率盡可能低。

廣泛的可靠性數(shù)據:另一方面,5 年的使用壽命意味著,當部署新的加速器/CPU/網絡時,必須迅速將其投入運行。這就像 iPhone 的上線啟動一樣。

超大規(guī)模數(shù)據中心運營商想要最好的技術,但只有在有大量可靠性數(shù)據可用時才會部署。

對于每一種半導體元件,客戶都希望看到廣泛的可靠性和壓力測試,從而實現(xiàn)極低的故障率(每十億器件小時的故障次數(shù))。這可能涉及在高溫、高頻率下對成千上萬個器件進行數(shù)月的測試,成本高昂。

故障預測與隔離:但這還不夠??蛻粜枰线b測技術來追蹤故障的先行指標,以便在設備發(fā)生故障之前主動更換設備。例如,在通信設備中,誤碼率 (BER) 的增加可能就是一個早期預警指標。

如果設備發(fā)生故障,它應該能夠自我診斷并發(fā)出警報,以便快速定位并修復錯誤。如今在數(shù)據中心,追溯故障根源可能需要數(shù)小時。

數(shù)據中心供應商需要獲取芯片的遙測數(shù)據,以便改進故障預測能力。此外,他們還需要故障分析專家來確定故障原因和具體故障所在,從而為提高可靠性的設計改進提供反饋,并調整固件設置以減少磨損和/或提高故障預測能力。

數(shù)據中心是當今半導體最大的市場。要想在這個市場中脫穎而出,你需要兼具高性能、低功耗和低成本。但如果沒有高可靠性的架構、固件和設計,你就無法獲得市場認可。

網站末尾圖片.png

標簽: 芯片元器件 點擊: 評論:

留言與評論(共有 0 條評論)
   
驗證碼:
新营市| 安福县| 民勤县| 嵊州市| 昌图县| 肥乡县| 青神县| 崇左市| 阜新市| 金昌市| 和龙市| 施甸县| 女性| 金湖县| 绥阳县| 灵宝市| 龙胜| 浦城县| 邵阳县| 西昌市| 临洮县| 张北县| 建德市| 高青县| 阿城市| 娄烦县| 广南县| 宜州市| 东海县| 长汀县| 天津市| 永胜县| 平度市| 手游| 花莲市| 丹江口市| 分宜县| 屏东县| 南康市| 水城县| 伊通|