98新超碰,人人澡人人爱,麻豆精品传媒国,碰国产久久久,思思99热久在线播放,青青草五月婷婷,日韩国产精品在线,久久亚洲成人,久久88视频网站

熱設(shè)計(jì)網(wǎng)

數(shù)據(jù)中心芯片,要求很高

熱設(shè)計(jì)

來(lái)源:半導(dǎo)體行業(yè)觀察

“在汽車(chē)、飛機(jī)、人工智能工廠的設(shè)計(jì)領(lǐng)域……你必須做到完美,”英偉達(dá)首席執(zhí)行官黃仁勛上個(gè)月在CNBC節(jié)目中表示?!霸蛟谟?,這其中牽涉到太多利益。”

汽車(chē)和飛機(jī)必須極其可靠,因?yàn)橐坏┌l(fā)生故障,就會(huì)造成人員傷亡。在人工智能數(shù)據(jù)中心,系統(tǒng)故障雖然不會(huì)造成人員傷亡,但其經(jīng)濟(jì)影響卻極其巨大,因?yàn)閬嗰R遜、谷歌和微軟都是市值萬(wàn)億美元的公司。它們的客戶依賴它們來(lái)驅(qū)動(dòng)龐大的經(jīng)濟(jì)引擎,而一旦系統(tǒng)宕機(jī),這些引擎就無(wú)法盈利。

例如,12月初,伊利諾伊州一個(gè)數(shù)據(jù)中心發(fā)生10小時(shí)的故障,導(dǎo)致全球貨幣和大宗商品市場(chǎng)(從黃金到石油再到利率)的交易暫停。

數(shù)據(jù)中心可靠性標(biāo)準(zhǔn)與策略

云服務(wù)提供商在全球運(yùn)營(yíng)著數(shù)百個(gè)巨型數(shù)據(jù)中心,這些數(shù)據(jù)中心通過(guò)數(shù)千英里的光纖連接在一起。它們是世界上規(guī)模最大、最復(fù)雜的計(jì)算機(jī)。

數(shù)據(jù)中心基礎(chǔ)設(shè)施的設(shè)計(jì)旨在實(shí)現(xiàn)極高的可靠性,并提供多種選擇。例如,谷歌提供的正常運(yùn)行時(shí)間從 99.9%(每月最大停機(jī)時(shí)間為 43 分鐘)到 99.999%(每月最大停機(jī)時(shí)間僅為 26 秒)不等。我的筆記本電腦崩潰的次數(shù)都比這多。如此高的可靠性是通過(guò)跨多個(gè)區(qū)域(數(shù)據(jù)中心)部署軟件來(lái)實(shí)現(xiàn)的,該軟件能夠快速地在數(shù)據(jù)中心之間轉(zhuǎn)移負(fù)載,從而避免單點(diǎn)故障。這需要投入一定的資源來(lái)實(shí)現(xiàn)冗余的并行計(jì)算和存儲(chǔ)。如果您托管的是一個(gè)全球交易平臺(tái),那么這些投入是值得的。存儲(chǔ)采用雙副本設(shè)計(jì),因此即使一個(gè)副本丟失或不可用,系統(tǒng)也能依靠另一個(gè)副本繼續(xù)運(yùn)行。

數(shù)據(jù)中心遠(yuǎn)不止是半導(dǎo)體設(shè)備那么簡(jiǎn)單。為了確保最高的可靠性,數(shù)據(jù)中心配備了冗余冷卻系統(tǒng)。如果一套系統(tǒng)發(fā)生故障,另一套系統(tǒng)會(huì)立即接管。電力分配也采用了冗余設(shè)計(jì),備用單元會(huì)在必要時(shí)啟動(dòng)。此外,如果電網(wǎng)斷電,電池或發(fā)電機(jī)也會(huì)自動(dòng)啟動(dòng)供電。

半導(dǎo)體可靠性的高層戰(zhàn)略與其他數(shù)據(jù)中心部分類(lèi)似:

  • 設(shè)計(jì)高可靠性的組件;

  • 設(shè)計(jì)組件和系統(tǒng),以便及早發(fā)現(xiàn)故障跡象并優(yōu)先修復(fù);

  • 增加冗余,以便在運(yùn)行過(guò)程中某個(gè)組件發(fā)生故障時(shí),能夠迅速識(shí)別出故障原因,并由備用組件接管。

數(shù)據(jù)中心可靠性的半導(dǎo)體架構(gòu)策略

數(shù)據(jù)中心芯片的設(shè)計(jì)必須盡可能可靠,但故障仍然難以避免。因此,數(shù)據(jù)中心芯片和子系統(tǒng)需要采用容錯(cuò)架構(gòu)。

數(shù)據(jù)中心擁有成千上萬(wàn)臺(tái)相同的服務(wù)器、交換機(jī)等設(shè)備。如果一臺(tái)服務(wù)器或機(jī)架出現(xiàn)故障,可以通過(guò)其他方式進(jìn)行替換。

ECC:數(shù)據(jù)中心CPU使用ECC內(nèi)存以提高可靠性。自HBM2以來(lái),HBM內(nèi)存就集成了片上ECC。HBM3則使用更強(qiáng)大的里德-所羅門(mén)碼。HBM還具有冗余數(shù)據(jù)總線通道,因此如果在運(yùn)行過(guò)程中出現(xiàn)通道故障,可以將其重新映射到備用功能通道。

網(wǎng)絡(luò)冗余擴(kuò)展:NVLink 是英偉達(dá)的超級(jí)競(jìng)爭(zhēng)優(yōu)勢(shì),它允許更大的 pod 規(guī)模,同時(shí)保持 GPU 之間極低的延遲。但為什么英偉達(dá)使用的是 NVLink72 而不是 64 呢?英偉達(dá)建議使用 64 個(gè) GPU 運(yùn)行,并保留 8 個(gè)作為備用(或處于待機(jī)狀態(tài),運(yùn)行低優(yōu)先級(jí)、可搶占式工作負(fù)載)。同樣,雖然 64 個(gè) GPU 只需要 16 個(gè)交換機(jī),但 NVLink 卻使用了 18 個(gè)交換機(jī)。在 NVLink 中,每個(gè)交換機(jī)都連接到每個(gè) GPU。這不僅允許調(diào)節(jié) GPU 之間的帶寬,還意味著即使某個(gè)交換機(jī)發(fā)生故障,也可以在不影響性能的情況下進(jìn)行映射。在 NVLink72 持續(xù)運(yùn)行的情況下,可以熱插拔故障的交換機(jī)或計(jì)算托架,從而恢復(fù)完整的冗余,實(shí)現(xiàn)最高的可靠性。

幾個(gè)月前,SemiAnalysis 報(bào)道稱,NVL72 背板的信號(hào)完整性問(wèn)題(至少在當(dāng)時(shí))會(huì)導(dǎo)致數(shù)據(jù)錯(cuò)誤,而這些錯(cuò)誤可能需要數(shù)小時(shí)才能定位和修復(fù)。NVL72 的修復(fù)時(shí)間比上一代產(chǎn)品長(zhǎng)一個(gè)數(shù)量級(jí)。隨著電頻率的提高以提升芯片性能,由于信號(hào)完整性問(wèn)題,數(shù)據(jù)傳輸?shù)目煽啃詴?huì)降低。為了利用光傳輸?shù)母h(yuǎn)傳輸距離來(lái)增大芯片尺寸,還需要通過(guò)切換到光傳輸來(lái)提高可靠性,因?yàn)楣鈧鬏敳淮嬖诖當(dāng)_或電磁信號(hào)完整性問(wèn)題。

橫向擴(kuò)展網(wǎng)絡(luò)冗余:如今的橫向擴(kuò)展系統(tǒng)主要基于以太網(wǎng),以太網(wǎng)采用數(shù)據(jù)包傳輸方式,并能確保數(shù)據(jù)包的重試和備用路由(如有需要)。每個(gè)數(shù)據(jù)包都會(huì)進(jìn)行錯(cuò)誤檢查和數(shù)據(jù)有效載荷的糾正。快速生成樹(shù)協(xié)議 (RSTP) 能夠在幾毫秒內(nèi)將故障的主路徑切換到備用路徑。這種網(wǎng)絡(luò)的魯棒性非常高,但代價(jià)是延遲。盡管如此,目前所有數(shù)據(jù)中心仍然采用這種方式連接機(jī)架和設(shè)備。

光路開(kāi)關(guān):在去年12月的瑞銀科技大會(huì)上,相干公司首席執(zhí)行官吉姆·安德森表示:“我們非常喜歡OCS?!?OCS即光路開(kāi)關(guān)。谷歌率先開(kāi)發(fā)了OCS技術(shù),并將其應(yīng)用于TPU超級(jí)芯片。光路開(kāi)關(guān)能夠在幾毫秒內(nèi)將數(shù)百路光纖輸入重新路由到數(shù)百路光纖輸出。這帶來(lái)了諸多優(yōu)勢(shì)。其中一項(xiàng)優(yōu)勢(shì)是能夠繞過(guò)故障芯片快速重新路由高帶寬數(shù)據(jù)。

熱插拔:如果可能的話,系統(tǒng)應(yīng)該設(shè)計(jì)成模塊化和熱插拔的,這樣如果需要更換某個(gè)部件,就可以快速、輕松地完成,并將中斷降到最低。

微信截圖_20260119094842.jpg

半導(dǎo)體元件設(shè)計(jì)可靠性

與其他大多數(shù)半導(dǎo)體應(yīng)用不同,機(jī)械工程對(duì)于數(shù)據(jù)中心的可靠性至關(guān)重要。如今,人工智能加速器采用封裝形式,將多個(gè) XPU 和 HBM 芯片集成在有機(jī)基板上的 CoWoS 中介層上,并通過(guò)焊接方式連接到印刷電路板 (PCB) 上。這種“三明治”結(jié)構(gòu)中各元件之間材料和溫度的差異,以及層間數(shù)千個(gè)鍵的相互作用,都可能導(dǎo)致物理連接出現(xiàn)翹曲和斷裂的風(fēng)險(xiǎn)。

數(shù)據(jù)中心運(yùn)行的某些方面對(duì)可靠性的要求較低:

工作溫度: Nvidia Blackwell GPU 的最高工作溫度為 85°C 結(jié)溫(晶體管的溫度)。AMD Epyc 處理器的典型最高工作溫度為 95°C 結(jié)溫,但可短暫達(dá)到 105°C 結(jié)溫。這些溫度遠(yuǎn)低于汽車(chē)級(jí)應(yīng)用(最高可達(dá) 125°C 結(jié)溫),原因有三:1)功耗隨溫度呈指數(shù)級(jí)增長(zhǎng);2)隨著溫度升高,可靠性下降——例如金屬遷移;3)在數(shù)據(jù)中心,昂貴的冷卻系統(tǒng)能夠有效降低功耗并提高可靠性,因此具有經(jīng)濟(jì)可行性。

使用壽命:汽車(chē)的使用壽命通常為 10 年、15 年或 20 年。但數(shù)據(jù)中心的使用壽命要短得多。《華爾街日?qǐng)?bào)》近期討論了主要超大規(guī)模數(shù)據(jù)中心出于會(huì)計(jì)目的的預(yù)計(jì)使用壽命,其范圍在 5 到 6 年之間。從這個(gè)意義上講,數(shù)據(jù)中心就像 iPhone 一樣。5 年或更長(zhǎng)時(shí)間后,就會(huì)出現(xiàn)更好的產(chǎn)品,因此升級(jí)而不是繼續(xù)運(yùn)行舊技術(shù)更經(jīng)濟(jì),尤其是在世界大部分地區(qū)電力供應(yīng)有限的情況下。即使使用壽命很短,可靠性設(shè)計(jì)仍然至關(guān)重要,以確保在使用壽命期間的故障率盡可能低。

廣泛的可靠性數(shù)據(jù):另一方面,5 年的使用壽命意味著,當(dāng)部署新的加速器/CPU/網(wǎng)絡(luò)時(shí),必須迅速將其投入運(yùn)行。這就像 iPhone 的上線啟動(dòng)一樣。

超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商想要最好的技術(shù),但只有在有大量可靠性數(shù)據(jù)可用時(shí)才會(huì)部署。

對(duì)于每一種半導(dǎo)體元件,客戶都希望看到廣泛的可靠性和壓力測(cè)試,從而實(shí)現(xiàn)極低的故障率(每十億器件小時(shí)的故障次數(shù))。這可能涉及在高溫、高頻率下對(duì)成千上萬(wàn)個(gè)器件進(jìn)行數(shù)月的測(cè)試,成本高昂。

故障預(yù)測(cè)與隔離:但這還不夠。客戶需要片上遙測(cè)技術(shù)來(lái)追蹤故障的先行指標(biāo),以便在設(shè)備發(fā)生故障之前主動(dòng)更換設(shè)備。例如,在通信設(shè)備中,誤碼率 (BER) 的增加可能就是一個(gè)早期預(yù)警指標(biāo)。

如果設(shè)備發(fā)生故障,它應(yīng)該能夠自我診斷并發(fā)出警報(bào),以便快速定位并修復(fù)錯(cuò)誤。如今在數(shù)據(jù)中心,追溯故障根源可能需要數(shù)小時(shí)。

數(shù)據(jù)中心供應(yīng)商需要獲取芯片的遙測(cè)數(shù)據(jù),以便改進(jìn)故障預(yù)測(cè)能力。此外,他們還需要故障分析專(zhuān)家來(lái)確定故障原因和具體故障所在,從而為提高可靠性的設(shè)計(jì)改進(jìn)提供反饋,并調(diào)整固件設(shè)置以減少磨損和/或提高故障預(yù)測(cè)能力。

數(shù)據(jù)中心是當(dāng)今半導(dǎo)體最大的市場(chǎng)。要想在這個(gè)市場(chǎng)中脫穎而出,你需要兼具高性能、低功耗和低成本。但如果沒(méi)有高可靠性的架構(gòu)、固件和設(shè)計(jì),你就無(wú)法獲得市場(chǎng)認(rèn)可。

網(wǎng)站末尾圖片.png

標(biāo)簽: 芯片元器件 點(diǎn)擊: 評(píng)論:

留言與評(píng)論(共有 0 條評(píng)論)
   
驗(yàn)證碼:
汝阳县| 长子县| 安新县| 邯郸县| 奈曼旗| 会理县| 宁德市| 泗阳县| 岫岩| 昭通市| 濉溪县| 东乡族自治县| 泗水县| 水富县| 张北县| 鲁山县| 钟山县| 裕民县| 竹北市| 调兵山市| 南部县| 永兴县| 平罗县| 武威市| 博爱县| 洞口县| 深圳市| 长兴县| 图片| 红安县| 樟树市| 大名县| 高台县| 南投市| 施秉县| 休宁县| 洛浦县| 屏南县| 遂宁市| 辽阳县| 衡山县|