來源:編譯自IEEE
本周,超過3萬人涌入加州圣何塞,參加英偉達(dá)全球技術(shù)大會(huì)(Nvidia GTC),這場(chǎng)被譽(yù)為“人工智能超級(jí)碗”的盛會(huì)——這個(gè)綽號(hào)或許是英偉達(dá)自己起的,也或許不是。在大會(huì)主會(huì)場(chǎng),英偉達(dá)首席執(zhí)行官黃仁勛登臺(tái)宣布(除其他事項(xiàng)外)一系列新一代Vera Rubin芯片,這對(duì)于這家GPU巨頭來說尚屬首次:一款專為處理人工智能推理而設(shè)計(jì)的芯片。這款名為Nvidia Groq 3的語言處理單元(LPU)融合了英偉達(dá)去年圣誕節(jié)前夕以200億美元從初創(chuàng)公司Groq獲得授權(quán)的知識(shí)產(chǎn)權(quán)。

“人工智能終于能夠從事生產(chǎn)性工作了,因此推理能力的轉(zhuǎn)折點(diǎn)已經(jīng)到來,”黃仁勛對(duì)在場(chǎng)聽眾說道?!叭斯ぶ悄墁F(xiàn)在必須思考。為了思考,它必須進(jìn)行推理。人工智能現(xiàn)在必須行動(dòng);為了行動(dòng),它必須進(jìn)行推理。”
訓(xùn)練和推理任務(wù)對(duì)計(jì)算資源的需求截然不同。訓(xùn)練可以同時(shí)處理海量數(shù)據(jù),耗時(shí)數(shù)周,而推理則必須在用戶提出查詢后立即運(yùn)行。與訓(xùn)練不同,推理不需要運(yùn)行成本高昂的反向傳播算法。對(duì)于推理而言,低延遲至關(guān)重要——用戶期望聊天機(jī)器人能夠快速響應(yīng),而對(duì)于需要思考或推理的模型來說,在用戶看到輸出結(jié)果之前,推理過程往往已經(jīng)運(yùn)行多次。
過去幾年,專注于推理的芯片初創(chuàng)公司經(jīng)歷了類似寒武紀(jì)大爆發(fā)的局面,不同的公司探索著不同的方法來加速推理任務(wù)。這些初創(chuàng)公司包括:采用數(shù)字內(nèi)存計(jì)算的D-matrix ;采用用于Transformer 推理的ASIC 芯片的Etched ;采用神經(jīng)形態(tài)芯片的RainAI;采用模擬內(nèi)存計(jì)算的EnCharge ;采用對(duì)數(shù)運(yùn)算以提高 AI 計(jì)算效率的Tensordyne ;以及采用針對(duì)張量運(yùn)算而非向量矩陣乘法優(yōu)化的硬件的FuriosaAI等等。
去年底,英偉達(dá)宣布與Groq達(dá)成合作協(xié)議,似乎已經(jīng)從眾多推理芯片中選出了佼佼者。僅僅兩個(gè)半月后,英偉達(dá)Groq 3 LPU便正式發(fā)布,凸顯了推理市場(chǎng)蓬勃發(fā)展的緊迫性。
內(nèi)存帶寬和數(shù)據(jù)流
Groq 的加速推理方法依賴于芯片上處理單元和存儲(chǔ)單元的交錯(cuò)排列。它沒有采用位于GPU旁邊的高帶寬內(nèi)存 (HBM) ,而是利用集成在處理器內(nèi)部的SRAM內(nèi)存。這種設(shè)計(jì)極大地簡(jiǎn)化了芯片內(nèi)的數(shù)據(jù)流,使其能夠以精簡(jiǎn)的線性方式進(jìn)行。
“數(shù)據(jù)實(shí)際上是直接流經(jīng)SRAM的,”馬克·希普斯在2024年的超級(jí)計(jì)算大會(huì)上說道。當(dāng)時(shí)希普斯是Groq的首席技術(shù)推廣官,現(xiàn)在是英偉達(dá)的開發(fā)者營銷總監(jiān)?!爱?dāng)你觀察多核GPU時(shí),你會(huì)發(fā)現(xiàn)很多指令需要先發(fā)送到芯片之外,進(jìn)入內(nèi)存,然后再返回芯片。而我們不需要這樣做。所有數(shù)據(jù)都是以線性順序流經(jīng)的?!?/span>
使用 SRAM 可以實(shí)現(xiàn)極快的線性數(shù)據(jù)流,從而滿足推理應(yīng)用所需的低延遲?!癓PU 專門針對(duì)這種極低延遲的令牌生成進(jìn)行了優(yōu)化,”英偉達(dá)超大規(guī)模和高性能計(jì)算副總裁兼總經(jīng)理Ian Buck表示。
將 Rubin GPU 和 Groq 3 LPU 并排比較,可以明顯看出它們之間的差異。Rubin GPU 擁有高達(dá) 288 GB 的 HBM 顯存,能夠以每秒 50 千萬億次浮點(diǎn)運(yùn)算 (petaFLOPS) 的速度進(jìn)行 4 位運(yùn)算。而 Groq 3 LPU 僅配備 500 MB 的 SRAM 內(nèi)存,能夠以每秒 1.2 千萬億次浮點(diǎn)運(yùn)算 (petaFLOPS) 的速度進(jìn)行 8 位運(yùn)算。另一方面,Rubin GPU 的內(nèi)存帶寬為每秒 22 TB,而 Groq 3 LPU 的內(nèi)存帶寬高達(dá)每秒 150 TB,速度是其七倍。這種精簡(jiǎn)且以速度為導(dǎo)向的設(shè)計(jì),正是 Groq 3 LPU 在推理方面表現(xiàn)卓越的原因。
這款新型推理芯片凸顯了人工智能應(yīng)用的持續(xù)趨勢(shì),即計(jì)算負(fù)載從構(gòu)建規(guī)模越來越大的模型轉(zhuǎn)移到大規(guī)模使用這些模型?!坝ミ_(dá)的發(fā)布驗(yàn)證了基于SRAM架構(gòu)的大規(guī)模推理的重要性,而d-Matrix在SRAM密度方面無人能及,”d-Matrix首席執(zhí)行官Sid Sheth表示。他認(rèn)為,數(shù)據(jù)中心客戶需要多種處理器來進(jìn)行推理?!白罱K勝出的系統(tǒng)將結(jié)合不同類型的芯片,并能與GPU輕松集成到現(xiàn)有數(shù)據(jù)中心中。”
僅用于推理的芯片可能并非唯一解決方案。上周晚些時(shí)候,亞馬遜網(wǎng)絡(luò)服務(wù) (AWS)宣布將在其數(shù)據(jù)中心部署一種新型推理系統(tǒng)。該系統(tǒng)結(jié)合了 AWS 的 Tranium AI 加速器和Cerebras Systems 的第三代計(jì)算機(jī) CS-3 ,后者基于迄今為止最大的單芯片構(gòu)建。這套兩部分組成的系統(tǒng)旨在利用一種名為推理分解的技術(shù)。它將推理過程分為兩部分:處理提示信息(稱為預(yù)填充)和生成輸出(稱為解碼)。預(yù)填充本質(zhì)上是并行的、計(jì)算密集型的,并且不需要太多的內(nèi)存帶寬。而解碼則是一個(gè)串行過程,需要大量的內(nèi)存帶寬。Cerebras通過在其芯片上構(gòu)建了 44 GB 的 SRAM ,并通過 21 PB/s 的網(wǎng)絡(luò)進(jìn)行連接,最大限度地解決了內(nèi)存帶寬問題。
英偉達(dá)也計(jì)劃在其名為Nvidia Groq 3 LPX的新型組合計(jì)算托盤中利用推理分解技術(shù)。每個(gè)托盤將容納8個(gè)Groq 3 LPU和一個(gè)Vera Rubin,后者將Rubin GPU與Vera CPU相結(jié)合。解碼過程中的預(yù)填充和計(jì)算密集型部分由Vera Rubin完成,而最后一部分則由Groq 3 LPU完成,從而充分利用每個(gè)芯片的優(yōu)勢(shì)?!拔覀儸F(xiàn)在已經(jīng)開始量產(chǎn)了,”黃仁勛說道。
推理成為下一個(gè)人工智能芯片戰(zhàn)場(chǎng)
Cambrian AI Research 的創(chuàng)始人兼首席分析師 Karl Freund 表示,推理與訓(xùn)練在經(jīng)濟(jì)效益和性能要求方面存在根本差異。訓(xùn)練 AI 模型是一項(xiàng)成本支出,而推理則是一項(xiàng)“利潤中心”,能夠直接產(chǎn)生收入。
Freund 和 Kimball 指出,雖然 GPU 性能卓越,但它們通常采用針對(duì)訓(xùn)練優(yōu)化的架構(gòu)特性,這些特性在純推理應(yīng)用場(chǎng)景中并不總能轉(zhuǎn)化為更低的延遲或更高的效率。專用的推理芯片——ASIC 和其他加速器——可以提供更快的響應(yīng)速度、更高的能效和更低的總體擁有成本。
弗羅因德說:“作為利潤中心,如果你的延遲低,你就能創(chuàng)造更多收入,因?yàn)槿藗兿MM快得到響應(yīng),而你也希望以盡可能低的成本獲得響應(yīng)。”
分析師表示,GPU(以英偉達(dá)為絕對(duì)主導(dǎo),AMD緊隨其后)在大型訓(xùn)練和推理領(lǐng)域占據(jù)主導(dǎo)地位,并將繼續(xù)在最大規(guī)模的工作負(fù)載中保持領(lǐng)先地位。然而,推理需求的激增正在創(chuàng)造GPU以外的機(jī)遇,尤其是在主流企業(yè)今年將規(guī)模從試點(diǎn)擴(kuò)展到生產(chǎn)階段之際。
“你會(huì)看到一些規(guī)模較小的公司,它們的員工人數(shù)可能只有一萬人左右,而不是十萬人,開始在生產(chǎn)制造、后臺(tái)辦公、前臺(tái)運(yùn)營以及邊緣計(jì)算等領(lǐng)域應(yīng)用人工智能,”金博爾說道。這些公司面臨著電力限制、散熱難題以及持續(xù)的GPU供應(yīng)挑戰(zhàn),使得在許多環(huán)境下構(gòu)建GPU密集型集群變得不切實(shí)際。
“部署GB200或H100這類設(shè)備時(shí),功率都在千瓦級(jí),”金博爾指出?!傲闶郗h(huán)境的電力預(yù)算有限,散熱條件也不好,所以不可能運(yùn)行一整機(jī)架的GPU。你得尋找其他替代方案。”
對(duì)于規(guī)模較小的公司,例如擁有100家分行的銀行,總體擁有成本和功耗預(yù)算是首要考慮因素,這為專注于推理技術(shù)的初創(chuàng)公司提供了滿足其需求的機(jī)會(huì)?!靶酒鮿?chuàng)公司在這方面擁有巨大的發(fā)展機(jī)遇,”金博爾說道,“它們能夠滿足現(xiàn)有廠商無法滿足的客戶需求,這些需求可能是由于產(chǎn)品供應(yīng)不足,也可能是由于特定的性能和功耗要求?!?/span>
Freund表示,雖然GPU目前仍然是推理的最佳通用解決方案,但市場(chǎng)正在轉(zhuǎn)向ASIC以及AWS、谷歌和初創(chuàng)公司等提供的替代架構(gòu)。
根據(jù) Futurum Group 2025 年 11 月的一項(xiàng)調(diào)查,到 2025 年,GPU 占數(shù)據(jù)中心計(jì)算支出的 58%;到 2026 年,XPU(既不是 GPU 也不是 CPU 的處理器,例如 ASIC 和定制加速器)預(yù)計(jì)將以 22% 的增長引領(lǐng)增長,超過 GPU (19%) 和 CPU (14% )。
“隨著推理工作負(fù)載在令牌輸出方面超過訓(xùn)練工作負(fù)載的總量,對(duì)多樣性的需求將會(huì)更大,因?yàn)樘娲?XPU 架構(gòu)可以在某些特定的推理任務(wù)上實(shí)現(xiàn)更高的效率,”Futurum Group 半導(dǎo)體、供應(yīng)鏈和新興技術(shù)研究總監(jiān) Brendan Burke 表示。
AWS 的案例表明了這種日益增長的需求。AWS 技術(shù)總監(jiān) Shaown Nandi 表示,這家超大規(guī)模數(shù)據(jù)中心支持 Nvidia、AMD 和 Intel 的芯片用于 AI 工作負(fù)載,同時(shí)還提供定制芯片,為客戶提供更多選擇。Nandi 補(bǔ)充道,許多客戶傾向于使用 Nvidia 芯片來優(yōu)化基于 CUDA 的模型,而其他客戶則越來越多地選擇AWS 的 Trainium 芯片 ,因?yàn)樗哂懈叩男詢r(jià)比和效率。
他解釋說:“它們的需求量都非常大。Bedrock(AWS 的推理服務(wù))上超過 50% 的代幣都運(yùn)行在我們的 Trainium 芯片上?!?/span>
英偉達(dá)已經(jīng)意識(shí)到對(duì)專用推理處理器的需求。2024年,高管們表示,其數(shù)據(jù)中心約40%的收入將來自推理業(yè)務(wù)。2025年9月,英偉達(dá)發(fā)布了Rubin CPX,這是一款專為超大規(guī)模和大型企業(yè)部署中的大規(guī)模上下文推理而設(shè)計(jì)的GPU,尤其適用于解碼前的預(yù)填充階段。據(jù)報(bào)道,英偉達(dá)與Groq達(dá)成的授權(quán)協(xié)議旨在將快速、低延遲、低成本的推理技術(shù)集成到其AI工廠架構(gòu)中;CNBC報(bào)道稱,英偉達(dá)計(jì)劃采用Groq的低延遲處理器來支持更廣泛的實(shí)時(shí)推理。
除了計(jì)劃收購 SambaNova 之外,英特爾還在探索多種推理方案。該公司已在其至強(qiáng) CPU 中集成 AMX 加速器,并提供專用于推理工作負(fù)載的 Gaudi AI 加速器?!叭缃瘢S多推理任務(wù)都在 CPU 上完成。未來,許多推理任務(wù)仍將在 CPU 上完成?!苯鸩栒f道。
AMD 在收購 Untether AI 的工程團(tuán)隊(duì)后,于 2025 年 11 月收購了推理初創(chuàng)公司 MK1。MK1 開發(fā)軟件,可優(yōu)化 AMD GPU,以便在大規(guī)模企業(yè)部署中進(jìn)行高速推理和推理。
Freund 在 2025 年 12 月的一篇博客文章中表示,谷歌最新的 TPU 芯片將成為推理領(lǐng)域的有力競(jìng)爭(zhēng)者,而高通即將推出的 AI200 和 AI250 芯片有望提供巨大的內(nèi)存容量和更低的成本,可能成為極具吸引力的數(shù)據(jù)中心選擇。
推理機(jī)會(huì)涵蓋數(shù)據(jù)中心和邊緣計(jì)算,而具體要求則因工作負(fù)載和部署方式而異。“你在自動(dòng)駕駛汽車中進(jìn)行的推理與你作為在線客服機(jī)器人進(jìn)行的推理截然不同,”金博爾說道。
Tirias Research首席分析師Jim McGregor指出,推理機(jī)會(huì)存在于所有進(jìn)行計(jì)算的地方,包括智能手機(jī)、個(gè)人電腦和汽車?!皼]有兩個(gè)工作負(fù)載是完全相同的,但我們將會(huì)看到針對(duì)不同工作負(fù)載的多種不同類型的AI加速器,”他說道?!笆袌?chǎng)仍處于早期階段,仍然有很大的發(fā)展空間,足以容納眾多供應(yīng)商?!?/span>
Freund 預(yù)測(cè),到 2026 年,大多數(shù)推理仍將在數(shù)據(jù)中心運(yùn)行,而不是在邊緣運(yùn)行。
數(shù)據(jù)中心推理領(lǐng)域的競(jìng)爭(zhēng)者包括Cerebras和 Tenstorrent。Cerebras 成立于 2015 年,大約一年前開始在其晶圓級(jí)芯片上提供推理功能。Cerebras 產(chǎn)品與戰(zhàn)略高級(jí)副總裁 Andy Hock 表示,其系統(tǒng)可以通過軟件在訓(xùn)練模式和推理模式之間切換,目前約 70% 的工作負(fù)載集中在推理方面。訓(xùn)練仍然是該公司收入的主要來源。
Tenstorrent 成立于 2016 年,由曾參與設(shè)計(jì) AMD Zen 架構(gòu)的 Jim Keller 領(lǐng)導(dǎo),該公司正在構(gòu)建基于 RISC-V 的 AI 推理處理器。
韓國的NPU(網(wǎng)絡(luò)處理單元)體現(xiàn)了從邊緣到數(shù)據(jù)中心的多元化發(fā)展。金博爾表示, FuriosaAI以其高效節(jié)能的NPU架構(gòu)和LG等重要客戶而聞名。據(jù)報(bào)道,該公司在2025年拒絕了Meta的收購要約。另一家韓國初創(chuàng)公司Rebellions則以其基于ARM的技術(shù)以及來自ARM和三星風(fēng)投的大量投資而著稱。
初創(chuàng)公司也在著手解決影響推理性能的關(guān)鍵內(nèi)存和網(wǎng)絡(luò)瓶頸問題。開發(fā) RISC-V 芯片設(shè)計(jì)的 SiFive 公司于 2025 年 9 月推出了第二代 Intelligence 系列協(xié)處理器,旨在最大限度地降低其 AI CPU 的內(nèi)存延遲。NeuReality 公司于 2025 年 9 月推出了 NR2 AI-SuperNIC,這是一款支持超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 規(guī)范的網(wǎng)絡(luò)接口卡,可用于橫向擴(kuò)展計(jì)算。d-Matrix 公司開發(fā)的內(nèi)存解決方案,據(jù) Freund 稱,其運(yùn)行速度比高帶寬內(nèi)存快四倍,成本更低。
市場(chǎng)展望
分析師預(yù)計(jì)英偉達(dá)將在訓(xùn)練和推理領(lǐng)域保持主導(dǎo)地位,但多樣化的需求為專業(yè)解決方案提供了搶占市場(chǎng)份額的空間。麥格雷戈對(duì)快速技術(shù)變革背景下初創(chuàng)企業(yè)的前景持謹(jǐn)慎態(tài)度,并預(yù)計(jì)會(huì)出現(xiàn)更多整合。雖然Groq取得了成功,但其他早期初創(chuàng)企業(yè)卻舉步維艱。麥格雷戈指出,除了AMD收購Untether AI和軟銀收購Graphcore之外,SambaNova此前獲得11億美元融資,如今以16億美元的價(jià)格出售,與其說是“賤賣”,不如說是“甩賣”。
GPU之所以仍然占據(jù)主導(dǎo)地位,是因?yàn)樗猛緩V泛且功能多樣?!斑@就是GPU依然稱霸的原因。它是可編程的,”麥格雷戈說。“你可以修改它,將其拆分,并同時(shí)運(yùn)行多個(gè)模型?!?/span>
Kimball提出了不同的觀點(diǎn),他預(yù)測(cè)主流企業(yè)將在2026年采用這項(xiàng)技術(shù),從而釋放對(duì)以推理為中心的初創(chuàng)公司的需求?!爱?dāng)推理市場(chǎng)真正成熟時(shí),這些初創(chuàng)公司將會(huì)發(fā)展得更好,”他說道。他預(yù)計(jì)通用推理芯片和專業(yè)垂直解決方案都將迎來發(fā)展機(jī)遇。
金博爾表示,總體而言,專用推理芯片的優(yōu)勢(shì)——成本更低、功耗更低、性能更強(qiáng)——?jiǎng)?chuàng)造了巨大的機(jī)遇。目前這批初創(chuàng)企業(yè)能否抓住這些機(jī)遇還有待觀察?!斑@是一個(gè)充滿活力、蓬勃發(fā)展的創(chuàng)業(yè)環(huán)境,”他說道,“這里蘊(yùn)藏著巨大的機(jī)遇,創(chuàng)新層出不窮,而現(xiàn)在還處于起步階段。”

標(biāo)簽: 點(diǎn)擊: 評(píng)論: