來源:編譯自IEEE
本周,超過3萬人涌入加州圣何塞,參加英偉達全球技術(shù)大會(Nvidia GTC),這場被譽為“人工智能超級碗”的盛會——這個綽號或許是英偉達自己起的,也或許不是。在大會主會場,英偉達首席執(zhí)行官黃仁勛登臺宣布(除其他事項外)一系列新一代Vera Rubin芯片,這對于這家GPU巨頭來說尚屬首次:一款專為處理人工智能推理而設(shè)計的芯片。這款名為Nvidia Groq 3的語言處理單元(LPU)融合了英偉達去年圣誕節(jié)前夕以200億美元從初創(chuàng)公司Groq獲得授權(quán)的知識產(chǎn)權(quán)。

“人工智能終于能夠從事生產(chǎn)性工作了,因此推理能力的轉(zhuǎn)折點已經(jīng)到來,”黃仁勛對在場聽眾說道?!叭斯ぶ悄墁F(xiàn)在必須思考。為了思考,它必須進行推理。人工智能現(xiàn)在必須行動;為了行動,它必須進行推理?!?/span>
訓練和推理任務(wù)對計算資源的需求截然不同。訓練可以同時處理海量數(shù)據(jù),耗時數(shù)周,而推理則必須在用戶提出查詢后立即運行。與訓練不同,推理不需要運行成本高昂的反向傳播算法。對于推理而言,低延遲至關(guān)重要——用戶期望聊天機器人能夠快速響應(yīng),而對于需要思考或推理的模型來說,在用戶看到輸出結(jié)果之前,推理過程往往已經(jīng)運行多次。
過去幾年,專注于推理的芯片初創(chuàng)公司經(jīng)歷了類似寒武紀大爆發(fā)的局面,不同的公司探索著不同的方法來加速推理任務(wù)。這些初創(chuàng)公司包括:采用數(shù)字內(nèi)存計算的D-matrix ;采用用于Transformer 推理的ASIC 芯片的Etched ;采用神經(jīng)形態(tài)芯片的RainAI;采用模擬內(nèi)存計算的EnCharge ;采用對數(shù)運算以提高 AI 計算效率的Tensordyne ;以及采用針對張量運算而非向量矩陣乘法優(yōu)化的硬件的FuriosaAI等等。
去年底,英偉達宣布與Groq達成合作協(xié)議,似乎已經(jīng)從眾多推理芯片中選出了佼佼者。僅僅兩個半月后,英偉達Groq 3 LPU便正式發(fā)布,凸顯了推理市場蓬勃發(fā)展的緊迫性。
內(nèi)存帶寬和數(shù)據(jù)流
Groq 的加速推理方法依賴于芯片上處理單元和存儲單元的交錯排列。它沒有采用位于GPU旁邊的高帶寬內(nèi)存 (HBM) ,而是利用集成在處理器內(nèi)部的SRAM內(nèi)存。這種設(shè)計極大地簡化了芯片內(nèi)的數(shù)據(jù)流,使其能夠以精簡的線性方式進行。
“數(shù)據(jù)實際上是直接流經(jīng)SRAM的,”馬克·希普斯在2024年的超級計算大會上說道。當時希普斯是Groq的首席技術(shù)推廣官,現(xiàn)在是英偉達的開發(fā)者營銷總監(jiān)?!爱斈阌^察多核GPU時,你會發(fā)現(xiàn)很多指令需要先發(fā)送到芯片之外,進入內(nèi)存,然后再返回芯片。而我們不需要這樣做。所有數(shù)據(jù)都是以線性順序流經(jīng)的?!?/span>
使用 SRAM 可以實現(xiàn)極快的線性數(shù)據(jù)流,從而滿足推理應(yīng)用所需的低延遲?!癓PU 專門針對這種極低延遲的令牌生成進行了優(yōu)化,”英偉達超大規(guī)模和高性能計算副總裁兼總經(jīng)理Ian Buck表示。
將 Rubin GPU 和 Groq 3 LPU 并排比較,可以明顯看出它們之間的差異。Rubin GPU 擁有高達 288 GB 的 HBM 顯存,能夠以每秒 50 千萬億次浮點運算 (petaFLOPS) 的速度進行 4 位運算。而 Groq 3 LPU 僅配備 500 MB 的 SRAM 內(nèi)存,能夠以每秒 1.2 千萬億次浮點運算 (petaFLOPS) 的速度進行 8 位運算。另一方面,Rubin GPU 的內(nèi)存帶寬為每秒 22 TB,而 Groq 3 LPU 的內(nèi)存帶寬高達每秒 150 TB,速度是其七倍。這種精簡且以速度為導向的設(shè)計,正是 Groq 3 LPU 在推理方面表現(xiàn)卓越的原因。
這款新型推理芯片凸顯了人工智能應(yīng)用的持續(xù)趨勢,即計算負載從構(gòu)建規(guī)模越來越大的模型轉(zhuǎn)移到大規(guī)模使用這些模型?!坝ミ_的發(fā)布驗證了基于SRAM架構(gòu)的大規(guī)模推理的重要性,而d-Matrix在SRAM密度方面無人能及,”d-Matrix首席執(zhí)行官Sid Sheth表示。他認為,數(shù)據(jù)中心客戶需要多種處理器來進行推理。“最終勝出的系統(tǒng)將結(jié)合不同類型的芯片,并能與GPU輕松集成到現(xiàn)有數(shù)據(jù)中心中?!?/span>
僅用于推理的芯片可能并非唯一解決方案。上周晚些時候,亞馬遜網(wǎng)絡(luò)服務(wù) (AWS)宣布將在其數(shù)據(jù)中心部署一種新型推理系統(tǒng)。該系統(tǒng)結(jié)合了 AWS 的 Tranium AI 加速器和Cerebras Systems 的第三代計算機 CS-3 ,后者基于迄今為止最大的單芯片構(gòu)建。這套兩部分組成的系統(tǒng)旨在利用一種名為推理分解的技術(shù)。它將推理過程分為兩部分:處理提示信息(稱為預填充)和生成輸出(稱為解碼)。預填充本質(zhì)上是并行的、計算密集型的,并且不需要太多的內(nèi)存帶寬。而解碼則是一個串行過程,需要大量的內(nèi)存帶寬。Cerebras通過在其芯片上構(gòu)建了 44 GB 的 SRAM ,并通過 21 PB/s 的網(wǎng)絡(luò)進行連接,最大限度地解決了內(nèi)存帶寬問題。
英偉達也計劃在其名為Nvidia Groq 3 LPX的新型組合計算托盤中利用推理分解技術(shù)。每個托盤將容納8個Groq 3 LPU和一個Vera Rubin,后者將Rubin GPU與Vera CPU相結(jié)合。解碼過程中的預填充和計算密集型部分由Vera Rubin完成,而最后一部分則由Groq 3 LPU完成,從而充分利用每個芯片的優(yōu)勢。“我們現(xiàn)在已經(jīng)開始量產(chǎn)了,”黃仁勛說道。
推理成為下一個人工智能芯片戰(zhàn)場
Cambrian AI Research 的創(chuàng)始人兼首席分析師 Karl Freund 表示,推理與訓練在經(jīng)濟效益和性能要求方面存在根本差異。訓練 AI 模型是一項成本支出,而推理則是一項“利潤中心”,能夠直接產(chǎn)生收入。
Freund 和 Kimball 指出,雖然 GPU 性能卓越,但它們通常采用針對訓練優(yōu)化的架構(gòu)特性,這些特性在純推理應(yīng)用場景中并不總能轉(zhuǎn)化為更低的延遲或更高的效率。專用的推理芯片——ASIC 和其他加速器——可以提供更快的響應(yīng)速度、更高的能效和更低的總體擁有成本。
弗羅因德說:“作為利潤中心,如果你的延遲低,你就能創(chuàng)造更多收入,因為人們希望盡快得到響應(yīng),而你也希望以盡可能低的成本獲得響應(yīng)。”
分析師表示,GPU(以英偉達為絕對主導,AMD緊隨其后)在大型訓練和推理領(lǐng)域占據(jù)主導地位,并將繼續(xù)在最大規(guī)模的工作負載中保持領(lǐng)先地位。然而,推理需求的激增正在創(chuàng)造GPU以外的機遇,尤其是在主流企業(yè)今年將規(guī)模從試點擴展到生產(chǎn)階段之際。
“你會看到一些規(guī)模較小的公司,它們的員工人數(shù)可能只有一萬人左右,而不是十萬人,開始在生產(chǎn)制造、后臺辦公、前臺運營以及邊緣計算等領(lǐng)域應(yīng)用人工智能,”金博爾說道。這些公司面臨著電力限制、散熱難題以及持續(xù)的GPU供應(yīng)挑戰(zhàn),使得在許多環(huán)境下構(gòu)建GPU密集型集群變得不切實際。
“部署GB200或H100這類設(shè)備時,功率都在千瓦級,”金博爾指出?!傲闶郗h(huán)境的電力預算有限,散熱條件也不好,所以不可能運行一整機架的GPU。你得尋找其他替代方案?!?/span>
對于規(guī)模較小的公司,例如擁有100家分行的銀行,總體擁有成本和功耗預算是首要考慮因素,這為專注于推理技術(shù)的初創(chuàng)公司提供了滿足其需求的機會。“芯片初創(chuàng)公司在這方面擁有巨大的發(fā)展機遇,”金博爾說道,“它們能夠滿足現(xiàn)有廠商無法滿足的客戶需求,這些需求可能是由于產(chǎn)品供應(yīng)不足,也可能是由于特定的性能和功耗要求。”
Freund表示,雖然GPU目前仍然是推理的最佳通用解決方案,但市場正在轉(zhuǎn)向ASIC以及AWS、谷歌和初創(chuàng)公司等提供的替代架構(gòu)。
根據(jù) Futurum Group 2025 年 11 月的一項調(diào)查,到 2025 年,GPU 占數(shù)據(jù)中心計算支出的 58%;到 2026 年,XPU(既不是 GPU 也不是 CPU 的處理器,例如 ASIC 和定制加速器)預計將以 22% 的增長引領(lǐng)增長,超過 GPU (19%) 和 CPU (14% )。
“隨著推理工作負載在令牌輸出方面超過訓練工作負載的總量,對多樣性的需求將會更大,因為替代的 XPU 架構(gòu)可以在某些特定的推理任務(wù)上實現(xiàn)更高的效率,”Futurum Group 半導體、供應(yīng)鏈和新興技術(shù)研究總監(jiān) Brendan Burke 表示。
AWS 的案例表明了這種日益增長的需求。AWS 技術(shù)總監(jiān) Shaown Nandi 表示,這家超大規(guī)模數(shù)據(jù)中心支持 Nvidia、AMD 和 Intel 的芯片用于 AI 工作負載,同時還提供定制芯片,為客戶提供更多選擇。Nandi 補充道,許多客戶傾向于使用 Nvidia 芯片來優(yōu)化基于 CUDA 的模型,而其他客戶則越來越多地選擇AWS 的 Trainium 芯片 ,因為它具有更高的性價比和效率。
他解釋說:“它們的需求量都非常大。Bedrock(AWS 的推理服務(wù))上超過 50% 的代幣都運行在我們的 Trainium 芯片上?!?/span>
英偉達已經(jīng)意識到對專用推理處理器的需求。2024年,高管們表示,其數(shù)據(jù)中心約40%的收入將來自推理業(yè)務(wù)。2025年9月,英偉達發(fā)布了Rubin CPX,這是一款專為超大規(guī)模和大型企業(yè)部署中的大規(guī)模上下文推理而設(shè)計的GPU,尤其適用于解碼前的預填充階段。據(jù)報道,英偉達與Groq達成的授權(quán)協(xié)議旨在將快速、低延遲、低成本的推理技術(shù)集成到其AI工廠架構(gòu)中;CNBC報道稱,英偉達計劃采用Groq的低延遲處理器來支持更廣泛的實時推理。
除了計劃收購 SambaNova 之外,英特爾還在探索多種推理方案。該公司已在其至強 CPU 中集成 AMX 加速器,并提供專用于推理工作負載的 Gaudi AI 加速器?!叭缃?,許多推理任務(wù)都在 CPU 上完成。未來,許多推理任務(wù)仍將在 CPU 上完成?!苯鸩栒f道。
AMD 在收購 Untether AI 的工程團隊后,于 2025 年 11 月收購了推理初創(chuàng)公司 MK1。MK1 開發(fā)軟件,可優(yōu)化 AMD GPU,以便在大規(guī)模企業(yè)部署中進行高速推理和推理。
Freund 在 2025 年 12 月的一篇博客文章中表示,谷歌最新的 TPU 芯片將成為推理領(lǐng)域的有力競爭者,而高通即將推出的 AI200 和 AI250 芯片有望提供巨大的內(nèi)存容量和更低的成本,可能成為極具吸引力的數(shù)據(jù)中心選擇。
推理機會涵蓋數(shù)據(jù)中心和邊緣計算,而具體要求則因工作負載和部署方式而異?!澳阍谧詣玉{駛汽車中進行的推理與你作為在線客服機器人進行的推理截然不同,”金博爾說道。
Tirias Research首席分析師Jim McGregor指出,推理機會存在于所有進行計算的地方,包括智能手機、個人電腦和汽車?!皼]有兩個工作負載是完全相同的,但我們將會看到針對不同工作負載的多種不同類型的AI加速器,”他說道。“市場仍處于早期階段,仍然有很大的發(fā)展空間,足以容納眾多供應(yīng)商?!?/span>
Freund 預測,到 2026 年,大多數(shù)推理仍將在數(shù)據(jù)中心運行,而不是在邊緣運行。
數(shù)據(jù)中心推理領(lǐng)域的競爭者包括Cerebras和 Tenstorrent。Cerebras 成立于 2015 年,大約一年前開始在其晶圓級芯片上提供推理功能。Cerebras 產(chǎn)品與戰(zhàn)略高級副總裁 Andy Hock 表示,其系統(tǒng)可以通過軟件在訓練模式和推理模式之間切換,目前約 70% 的工作負載集中在推理方面。訓練仍然是該公司收入的主要來源。
Tenstorrent 成立于 2016 年,由曾參與設(shè)計 AMD Zen 架構(gòu)的 Jim Keller 領(lǐng)導,該公司正在構(gòu)建基于 RISC-V 的 AI 推理處理器。
韓國的NPU(網(wǎng)絡(luò)處理單元)體現(xiàn)了從邊緣到數(shù)據(jù)中心的多元化發(fā)展。金博爾表示, FuriosaAI以其高效節(jié)能的NPU架構(gòu)和LG等重要客戶而聞名。據(jù)報道,該公司在2025年拒絕了Meta的收購要約。另一家韓國初創(chuàng)公司Rebellions則以其基于ARM的技術(shù)以及來自ARM和三星風投的大量投資而著稱。
初創(chuàng)公司也在著手解決影響推理性能的關(guān)鍵內(nèi)存和網(wǎng)絡(luò)瓶頸問題。開發(fā) RISC-V 芯片設(shè)計的 SiFive 公司于 2025 年 9 月推出了第二代 Intelligence 系列協(xié)處理器,旨在最大限度地降低其 AI CPU 的內(nèi)存延遲。NeuReality 公司于 2025 年 9 月推出了 NR2 AI-SuperNIC,這是一款支持超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 規(guī)范的網(wǎng)絡(luò)接口卡,可用于橫向擴展計算。d-Matrix 公司開發(fā)的內(nèi)存解決方案,據(jù) Freund 稱,其運行速度比高帶寬內(nèi)存快四倍,成本更低。
市場展望
分析師預計英偉達將在訓練和推理領(lǐng)域保持主導地位,但多樣化的需求為專業(yè)解決方案提供了搶占市場份額的空間。麥格雷戈對快速技術(shù)變革背景下初創(chuàng)企業(yè)的前景持謹慎態(tài)度,并預計會出現(xiàn)更多整合。雖然Groq取得了成功,但其他早期初創(chuàng)企業(yè)卻舉步維艱。麥格雷戈指出,除了AMD收購Untether AI和軟銀收購Graphcore之外,SambaNova此前獲得11億美元融資,如今以16億美元的價格出售,與其說是“賤賣”,不如說是“甩賣”。
GPU之所以仍然占據(jù)主導地位,是因為它用途廣泛且功能多樣?!斑@就是GPU依然稱霸的原因。它是可編程的,”麥格雷戈說。“你可以修改它,將其拆分,并同時運行多個模型?!?/span>
Kimball提出了不同的觀點,他預測主流企業(yè)將在2026年采用這項技術(shù),從而釋放對以推理為中心的初創(chuàng)公司的需求?!爱斖评硎袌稣嬲墒鞎r,這些初創(chuàng)公司將會發(fā)展得更好,”他說道。他預計通用推理芯片和專業(yè)垂直解決方案都將迎來發(fā)展機遇。
金博爾表示,總體而言,專用推理芯片的優(yōu)勢——成本更低、功耗更低、性能更強——創(chuàng)造了巨大的機遇。目前這批初創(chuàng)企業(yè)能否抓住這些機遇還有待觀察?!斑@是一個充滿活力、蓬勃發(fā)展的創(chuàng)業(yè)環(huán)境,”他說道,“這里蘊藏著巨大的機遇,創(chuàng)新層出不窮,而現(xiàn)在還處于起步階段?!?/span>

標簽: 點擊: 評論: