推理芯片時代，正式開啟

熱設(shè)計 2026-04-16

來源：編譯自IEEE

本周，超過3萬人涌入加州圣何塞，參加英偉達全球技術(shù)大會（Nvidia GTC），這場被譽為“人工智能超級碗”的盛會——這個綽號或許是英偉達自己起的，也或許不是。在大會主會場，英偉達首席執(zhí)行官黃仁勛登臺宣布（除其他事項外）一系列新一代Vera Rubin芯片，這對于這家GPU巨頭來說尚屬首次：一款專為處理人工智能推理而設(shè)計的芯片。這款名為Nvidia Groq 3的語言處理單元（LPU）融合了英偉達去年圣誕節(jié)前夕以200億美元從初創(chuàng)公司Groq獲得授權(quán)的知識產(chǎn)權(quán)。

“人工智能終于能夠從事生產(chǎn)性工作了，因此推理能力的轉(zhuǎn)折點已經(jīng)到來，”黃仁勛對在場聽眾說道?！叭斯ぶ悄墁F(xiàn)在必須思考。為了思考，它必須進行推理。人工智能現(xiàn)在必須行動；為了行動，它必須進行推理?！?/span>

訓練和推理任務(wù)對計算資源的需求截然不同。訓練可以同時處理海量數(shù)據(jù)，耗時數(shù)周，而推理則必須在用戶提出查詢后立即運行。與訓練不同，推理不需要運行成本高昂的反向傳播算法。對于推理而言，低延遲至關(guān)重要——用戶期望聊天機器人能夠快速響應(yīng)，而對于需要思考或推理的模型來說，在用戶看到輸出結(jié)果之前，推理過程往往已經(jīng)運行多次。

過去幾年，專注于推理的芯片初創(chuàng)公司經(jīng)歷了類似寒武紀大爆發(fā)的局面，不同的公司探索著不同的方法來加速推理任務(wù)。這些初創(chuàng)公司包括：采用數(shù)字內(nèi)存計算的D-matrix ；采用用于Transformer 推理的ASIC 芯片的Etched ；采用神經(jīng)形態(tài)芯片的RainAI；采用模擬內(nèi)存計算的EnCharge ；采用對數(shù)運算以提高 AI 計算效率的Tensordyne ；以及采用針對張量運算而非向量矩陣乘法優(yōu)化的硬件的FuriosaAI等等。

去年底，英偉達宣布與Groq達成合作協(xié)議，似乎已經(jīng)從眾多推理芯片中選出了佼佼者。僅僅兩個半月后，英偉達Groq 3 LPU便正式發(fā)布，凸顯了推理市場蓬勃發(fā)展的緊迫性。

內(nèi)存帶寬和數(shù)據(jù)流

Groq 的加速推理方法依賴于芯片上處理單元和存儲單元的交錯排列。它沒有采用位于GPU旁邊的高帶寬內(nèi)存 (HBM) ，而是利用集成在處理器內(nèi)部的SRAM內(nèi)存。這種設(shè)計極大地簡化了芯片內(nèi)的數(shù)據(jù)流，使其能夠以精簡的線性方式進行。

“數(shù)據(jù)實際上是直接流經(jīng)SRAM的，”馬克·希普斯在2024年的超級計算大會上說道。當時希普斯是Groq的首席技術(shù)推廣官，現(xiàn)在是英偉達的開發(fā)者營銷總監(jiān)?！爱斈阌^察多核GPU時，你會發(fā)現(xiàn)很多指令需要先發(fā)送到芯片之外，進入內(nèi)存，然后再返回芯片。而我們不需要這樣做。所有數(shù)據(jù)都是以線性順序流經(jīng)的?！?/span>

使用 SRAM 可以實現(xiàn)極快的線性數(shù)據(jù)流，從而滿足推理應(yīng)用所需的低延遲?！癓PU 專門針對這種極低延遲的令牌生成進行了優(yōu)化，”英偉達超大規(guī)模和高性能計算副總裁兼總經(jīng)理Ian Buck表示。

將 Rubin GPU 和 Groq 3 LPU 并排比較，可以明顯看出它們之間的差異。Rubin GPU 擁有高達 288 GB 的 HBM 顯存，能夠以每秒 50 千萬億次浮點運算 (petaFLOPS) 的速度進行 4 位運算。而 Groq 3 LPU 僅配備 500 MB 的 SRAM 內(nèi)存，能夠以每秒 1.2 千萬億次浮點運算 (petaFLOPS) 的速度進行 8 位運算。另一方面，Rubin GPU 的內(nèi)存帶寬為每秒 22 TB，而 Groq 3 LPU 的內(nèi)存帶寬高達每秒 150 TB，速度是其七倍。這種精簡且以速度為導向的設(shè)計，正是 Groq 3 LPU 在推理方面表現(xiàn)卓越的原因。

這款新型推理芯片凸顯了人工智能應(yīng)用的持續(xù)趨勢，即計算負載從構(gòu)建規(guī)模越來越大的模型轉(zhuǎn)移到大規(guī)模使用這些模型?！坝ミ_的發(fā)布驗證了基于SRAM架構(gòu)的大規(guī)模推理的重要性，而d-Matrix在SRAM密度方面無人能及，”d-Matrix首席執(zhí)行官Sid Sheth表示。他認為，數(shù)據(jù)中心客戶需要多種處理器來進行推理。“最終勝出的系統(tǒng)將結(jié)合不同類型的芯片，并能與GPU輕松集成到現(xiàn)有數(shù)據(jù)中心中?！?/span>

僅用于推理的芯片可能并非唯一解決方案。上周晚些時候，亞馬遜網(wǎng)絡(luò)服務(wù) (AWS)宣布將在其數(shù)據(jù)中心部署一種新型推理系統(tǒng)。該系統(tǒng)結(jié)合了 AWS 的 Tranium AI 加速器和Cerebras Systems 的第三代計算機 CS-3 ，后者基于迄今為止最大的單芯片構(gòu)建。這套兩部分組成的系統(tǒng)旨在利用一種名為推理分解的技術(shù)。它將推理過程分為兩部分：處理提示信息（稱為預填充）和生成輸出（稱為解碼）。預填充本質(zhì)上是并行的、計算密集型的，并且不需要太多的內(nèi)存帶寬。而解碼則是一個串行過程，需要大量的內(nèi)存帶寬。Cerebras通過在其芯片上構(gòu)建了 44 GB 的 SRAM ，并通過 21 PB/s 的網(wǎng)絡(luò)進行連接，最大限度地解決了內(nèi)存帶寬問題。

英偉達也計劃在其名為Nvidia Groq 3 LPX的新型組合計算托盤中利用推理分解技術(shù)。每個托盤將容納8個Groq 3 LPU和一個Vera Rubin，后者將Rubin GPU與Vera CPU相結(jié)合。解碼過程中的預填充和計算密集型部分由Vera Rubin完成，而最后一部分則由Groq 3 LPU完成，從而充分利用每個芯片的優(yōu)勢。“我們現(xiàn)在已經(jīng)開始量產(chǎn)了，”黃仁勛說道。

推理成為下一個人工智能芯片戰(zhàn)場

Cambrian AI Research 的創(chuàng)始人兼首席分析師 Karl Freund 表示，推理與訓練在經(jīng)濟效益和性能要求方面存在根本差異。訓練 AI 模型是一項成本支出，而推理則是一項“利潤中心”，能夠直接產(chǎn)生收入。

Freund 和 Kimball 指出，雖然 GPU 性能卓越，但它們通常采用針對訓練優(yōu)化的架構(gòu)特性，這些特性在純推理應(yīng)用場景中并不總能轉(zhuǎn)化為更低的延遲或更高的效率。專用的推理芯片——ASIC 和其他加速器——可以提供更快的響應(yīng)速度、更高的能效和更低的總體擁有成本。

弗羅因德說：“作為利潤中心，如果你的延遲低，你就能創(chuàng)造更多收入，因為人們希望盡快得到響應(yīng)，而你也希望以盡可能低的成本獲得響應(yīng)。”

分析師表示，GPU（以英偉達為絕對主導，AMD緊隨其后）在大型訓練和推理領(lǐng)域占據(jù)主導地位，并將繼續(xù)在最大規(guī)模的工作負載中保持領(lǐng)先地位。然而，推理需求的激增正在創(chuàng)造GPU以外的機遇，尤其是在主流企業(yè)今年將規(guī)模從試點擴展到生產(chǎn)階段之際。

“你會看到一些規(guī)模較小的公司，它們的員工人數(shù)可能只有一萬人左右，而不是十萬人，開始在生產(chǎn)制造、后臺辦公、前臺運營以及邊緣計算等領(lǐng)域應(yīng)用人工智能，”金博爾說道。這些公司面臨著電力限制、散熱難題以及持續(xù)的GPU供應(yīng)挑戰(zhàn)，使得在許多環(huán)境下構(gòu)建GPU密集型集群變得不切實際。

“部署GB200或H100這類設(shè)備時，功率都在千瓦級，”金博爾指出?！傲闶郗h(huán)境的電力預算有限，散熱條件也不好，所以不可能運行一整機架的GPU。你得尋找其他替代方案?！?/span>

對于規(guī)模較小的公司，例如擁有100家分行的銀行，總體擁有成本和功耗預算是首要考慮因素，這為專注于推理技術(shù)的初創(chuàng)公司提供了滿足其需求的機會。“芯片初創(chuàng)公司在這方面擁有巨大的發(fā)展機遇，”金博爾說道，“它們能夠滿足現(xiàn)有廠商無法滿足的客戶需求，這些需求可能是由于產(chǎn)品供應(yīng)不足，也可能是由于特定的性能和功耗要求。”

Freund表示，雖然GPU目前仍然是推理的最佳通用解決方案，但市場正在轉(zhuǎn)向ASIC以及AWS、谷歌和初創(chuàng)公司等提供的替代架構(gòu)。

根據(jù) Futurum Group 2025 年 11 月的一項調(diào)查，到 2025 年，GPU 占數(shù)據(jù)中心計算支出的 58%；到 2026 年，XPU（既不是 GPU 也不是 CPU 的處理器，例如 ASIC 和定制加速器）預計將以 22% 的增長引領(lǐng)增長，超過 GPU (19%) 和 CPU (14% )。

“隨著推理工作負載在令牌輸出方面超過訓練工作負載的總量，對多樣性的需求將會更大，因為替代的 XPU 架構(gòu)可以在某些特定的推理任務(wù)上實現(xiàn)更高的效率，”Futurum Group 半導體、供應(yīng)鏈和新興技術(shù)研究總監(jiān) Brendan Burke 表示。

AWS 的案例表明了這種日益增長的需求。AWS 技術(shù)總監(jiān) Shaown Nandi 表示，這家超大規(guī)模數(shù)據(jù)中心支持 Nvidia、AMD 和 Intel 的芯片用于 AI 工作負載，同時還提供定制芯片，為客戶提供更多選擇。Nandi 補充道，許多客戶傾向于使用 Nvidia 芯片來優(yōu)化基于 CUDA 的模型，而其他客戶則越來越多地選擇AWS 的 Trainium 芯片，因為它具有更高的性價比和效率。

他解釋說：“它們的需求量都非常大。Bedrock（AWS 的推理服務(wù)）上超過 50% 的代幣都運行在我們的 Trainium 芯片上?！?/span>

英偉達已經(jīng)意識到對專用推理處理器的需求。2024年，高管們表示，其數(shù)據(jù)中心約40%的收入將來自推理業(yè)務(wù)。2025年9月，英偉達發(fā)布了Rubin CPX，這是一款專為超大規(guī)模和大型企業(yè)部署中的大規(guī)模上下文推理而設(shè)計的GPU，尤其適用于解碼前的預填充階段。據(jù)報道，英偉達與Groq達成的授權(quán)協(xié)議旨在將快速、低延遲、低成本的推理技術(shù)集成到其AI工廠架構(gòu)中；CNBC報道稱，英偉達計劃采用Groq的低延遲處理器來支持更廣泛的實時推理。

除了計劃收購 SambaNova 之外，英特爾還在探索多種推理方案。該公司已在其至強 CPU 中集成 AMX 加速器，并提供專用于推理工作負載的 Gaudi AI 加速器?！叭缃?，許多推理任務(wù)都在 CPU 上完成。未來，許多推理任務(wù)仍將在 CPU 上完成?！苯鸩栒f道。

AMD 在收購 Untether AI 的工程團隊后，于 2025 年 11 月收購了推理初創(chuàng)公司 MK1。MK1 開發(fā)軟件，可優(yōu)化 AMD GPU，以便在大規(guī)模企業(yè)部署中進行高速推理和推理。

Freund 在 2025 年 12 月的一篇博客文章中表示，谷歌最新的 TPU 芯片將成為推理領(lǐng)域的有力競爭者，而高通即將推出的 AI200 和 AI250 芯片有望提供巨大的內(nèi)存容量和更低的成本，可能成為極具吸引力的數(shù)據(jù)中心選擇。

推理機會涵蓋數(shù)據(jù)中心和邊緣計算，而具體要求則因工作負載和部署方式而異?！澳阍谧詣玉{駛汽車中進行的推理與你作為在線客服機器人進行的推理截然不同，”金博爾說道。

Tirias Research首席分析師Jim McGregor指出，推理機會存在于所有進行計算的地方，包括智能手機、個人電腦和汽車?！皼]有兩個工作負載是完全相同的，但我們將會看到針對不同工作負載的多種不同類型的AI加速器，”他說道。“市場仍處于早期階段，仍然有很大的發(fā)展空間，足以容納眾多供應(yīng)商?！?/span>

Freund 預測，到 2026 年，大多數(shù)推理仍將在數(shù)據(jù)中心運行，而不是在邊緣運行。

數(shù)據(jù)中心推理領(lǐng)域的競爭者包括Cerebras和 Tenstorrent。Cerebras 成立于 2015 年，大約一年前開始在其晶圓級芯片上提供推理功能。Cerebras 產(chǎn)品與戰(zhàn)略高級副總裁 Andy Hock 表示，其系統(tǒng)可以通過軟件在訓練模式和推理模式之間切換，目前約 70% 的工作負載集中在推理方面。訓練仍然是該公司收入的主要來源。

Tenstorrent 成立于 2016 年，由曾參與設(shè)計 AMD Zen 架構(gòu)的 Jim Keller 領(lǐng)導，該公司正在構(gòu)建基于 RISC-V 的 AI 推理處理器。

韓國的NPU（網(wǎng)絡(luò)處理單元）體現(xiàn)了從邊緣到數(shù)據(jù)中心的多元化發(fā)展。金博爾表示， FuriosaAI以其高效節(jié)能的NPU架構(gòu)和LG等重要客戶而聞名。據(jù)報道，該公司在2025年拒絕了Meta的收購要約。另一家韓國初創(chuàng)公司Rebellions則以其基于ARM的技術(shù)以及來自ARM和三星風投的大量投資而著稱。

初創(chuàng)公司也在著手解決影響推理性能的關(guān)鍵內(nèi)存和網(wǎng)絡(luò)瓶頸問題。開發(fā) RISC-V 芯片設(shè)計的 SiFive 公司于 2025 年 9 月推出了第二代 Intelligence 系列協(xié)處理器，旨在最大限度地降低其 AI CPU 的內(nèi)存延遲。NeuReality 公司于 2025 年 9 月推出了 NR2 AI-SuperNIC，這是一款支持超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 規(guī)范的網(wǎng)絡(luò)接口卡，可用于橫向擴展計算。d-Matrix 公司開發(fā)的內(nèi)存解決方案，據(jù) Freund 稱，其運行速度比高帶寬內(nèi)存快四倍，成本更低。

市場展望

分析師預計英偉達將在訓練和推理領(lǐng)域保持主導地位，但多樣化的需求為專業(yè)解決方案提供了搶占市場份額的空間。麥格雷戈對快速技術(shù)變革背景下初創(chuàng)企業(yè)的前景持謹慎態(tài)度，并預計會出現(xiàn)更多整合。雖然Groq取得了成功，但其他早期初創(chuàng)企業(yè)卻舉步維艱。麥格雷戈指出，除了AMD收購Untether AI和軟銀收購Graphcore之外，SambaNova此前獲得11億美元融資，如今以16億美元的價格出售，與其說是“賤賣”，不如說是“甩賣”。

GPU之所以仍然占據(jù)主導地位，是因為它用途廣泛且功能多樣?！斑@就是GPU依然稱霸的原因。它是可編程的，”麥格雷戈說。“你可以修改它，將其拆分，并同時運行多個模型?！?/span>

Kimball提出了不同的觀點，他預測主流企業(yè)將在2026年采用這項技術(shù)，從而釋放對以推理為中心的初創(chuàng)公司的需求?！爱斖评硎袌稣嬲墒鞎r，這些初創(chuàng)公司將會發(fā)展得更好，”他說道。他預計通用推理芯片和專業(yè)垂直解決方案都將迎來發(fā)展機遇。

金博爾表示，總體而言，專用推理芯片的優(yōu)勢——成本更低、功耗更低、性能更強——創(chuàng)造了巨大的機遇。目前這批初創(chuàng)企業(yè)能否抓住這些機遇還有待觀察?！斑@是一個充滿活力、蓬勃發(fā)展的創(chuàng)業(yè)環(huán)境，”他說道，“這里蘊藏著巨大的機遇，創(chuàng)新層出不窮，而現(xiàn)在還處于起步階段?！?/span>

網(wǎng)站末尾圖片.png

標簽：點擊：評論:

本文地址： http://www.0532yewu.com/info/3320.html

版權(quán)聲明：除非特別標注，否則均為本站原創(chuàng)文章，轉(zhuǎn)載時請以鏈接形式注明文章出處。

98新超碰,人人澡人人爱,麻豆精品传媒国,碰国产久久久,思思99热久在线播放,青青草五月婷婷,日韩国产精品在线,久久亚洲成人,久久88视频网站

推理芯片時代，正式開啟