“黃仁勛這200億美元,買的其實(shí)就是Jonathan Ross這個(gè)人,押注在此英偉達(dá)未來可能會(huì)賺回三倍的錢,所以200 億美元實(shí)在不算貴?!蹦惩顿Y人近日向雷峰網(wǎng)透露。
2025年12月24日,英偉達(dá)以其史上最大規(guī)模交易額200億美金,將推理芯片獨(dú)角獸Groq的核心技術(shù)與團(tuán)隊(duì)收入麾下。Groq創(chuàng)始人、谷歌TPU初代核心開發(fā)者Jonathan Ross帶隊(duì)加盟英偉達(dá),其獨(dú)創(chuàng)的LPU芯片技術(shù)將融入英偉達(dá)AI Factory架構(gòu)。當(dāng)下AI行業(yè)正從“規(guī)模競(jìng)賽期”轉(zhuǎn)向“效率價(jià)值兌換期”,推理側(cè)需求大于訓(xùn)練側(cè)需求已成為普遍共識(shí)。面對(duì)推理市場(chǎng)的爆發(fā)式增長,Groq的專屬LPU芯片以5-10倍于GPU 的速度優(yōu)勢(shì),以及1/10的成本優(yōu)勢(shì),成為異軍突起的核心玩家,而黃仁勛最終還是選擇了將這條攪動(dòng)市場(chǎng)的鯰魚收入囊中。這究竟是招安潛在對(duì)手的緩兵之計(jì),還是壟斷推理市場(chǎng)的霸權(quán)布局?
01重金收編的核心是什么?
2026年CES大會(huì)期間,英偉達(dá)管理層在面向投資者的會(huì)議上強(qiáng)調(diào),此次收購Groq不會(huì)對(duì)核心業(yè)務(wù)產(chǎn)生沖擊,反而將為公司開辟全新的增長空間。而這樁被包裝成“非獨(dú)家技術(shù)授權(quán)”的交易,本質(zhì)是硅谷近年流行的“收購式招聘”的升級(jí)版:用授權(quán)的名義實(shí)現(xiàn)“人才+技術(shù)”的雙收。瑞銀分析師團(tuán)隊(duì)在研報(bào)中直言:“這是一場(chǎng)沒有收購之名的完全收購,英偉達(dá)用最小的監(jiān)管風(fēng)險(xiǎn),獲得了最核心的戰(zhàn)略資產(chǎn)。”根據(jù)披露信息,英偉達(dá)所支付的200億美元中,130億已即時(shí)到賬,剩余款項(xiàng)中包含核心員工的股權(quán)激勵(lì),其中Groq CEO Jonathan Ross個(gè)人獲得數(shù)億美元英偉達(dá)股權(quán)。團(tuán)隊(duì)核心成員則幾乎全員轉(zhuǎn)入英偉達(dá),芯片設(shè)計(jì)、編譯器開發(fā)等核心資產(chǎn)也盡數(shù)歸入英偉達(dá)體系?!包S仁勛這200億美元買的其實(shí)就是Jonathan Ross這個(gè)人,因?yàn)镴onathan Ross是個(gè)非一般意義的天才。如果拿黃仁勛類比杰夫里辛頓(深度學(xué)習(xí)教父)的話,那Jonathan Ross就要類比伊利亞(OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家)?!碧μ\花園播客主理人、資深私募投資人王韋華告訴雷峰網(wǎng)。
作為谷歌初代TPU的核心設(shè)計(jì)者,Jonathan Ross早在2016年Groq成立時(shí)就已預(yù)判推理將成為規(guī)?;y題,并率先提出“推理市場(chǎng)規(guī)模終將遠(yuǎn)超訓(xùn)練”。他提前洞悉到推理的核心需求是“低延遲、高能效、低成本”,而非計(jì)算密度。因此他摒棄了GPU架構(gòu)改良思路,從零打造專為推理設(shè)計(jì)的LPU架構(gòu)。LPU架構(gòu)完全圍繞“消除數(shù)據(jù)搬運(yùn)延遲”展開,采用無外置內(nèi)存、全片上SRAM作為主存的設(shè)計(jì),片上帶寬達(dá)80TB/s,是Blackwell B300 的HBM帶寬8TB/s的10倍。成本方面,Jonathan Ross曾在福布斯獨(dú)家專訪中公開聲明,“Groq LPU在LLM推理速度快10倍同時(shí),成本是Nvidia GPU的1/10,功耗是Nvidia GPU的1/10?!边@種集性能與成本優(yōu)勢(shì)于一身的提升,精準(zhǔn)擊中了英偉達(dá)在推理賽道的核心短板,也成為黃仁勛不惜斥資 200億果斷出手的關(guān)鍵所在。另一方面,回溯英偉達(dá)過往的并購布局便不難發(fā)現(xiàn),這場(chǎng)交易也并非偶然。
2000年,英偉達(dá)以7000萬美元+100萬股普通股收購了3dfx核心圖形資產(chǎn),奠定GPU領(lǐng)域統(tǒng)治基礎(chǔ);2013年,收購了HPC編譯器龍頭PGI,強(qiáng)化了CUDA生態(tài)在高性能計(jì)算領(lǐng)域的核心支撐;2019年,以約69億美元收購了Mellanox,補(bǔ)全數(shù)據(jù)中心網(wǎng)絡(luò)短板。王韋華認(rèn)為,“LPU現(xiàn)在已經(jīng)不是0億美金市場(chǎng)了,但黃仁勛再次早于別人發(fā)現(xiàn)了LPU的重要性。英偉達(dá)現(xiàn)在收購Groq,甚至比2019年收購Mellanox的重要性要更大,這一步直接讓英偉達(dá)在推理端領(lǐng)先兩三年。雖然在英偉達(dá)整個(gè)數(shù)據(jù)中心的建設(shè)里推理占比不大,但只要它在技術(shù)上保持領(lǐng)先就會(huì)產(chǎn)生巨大的杠桿效應(yīng)?!北M管Groq當(dāng)前的市占率遠(yuǎn)未對(duì)英偉達(dá)構(gòu)成直接威脅,但它掌握的可重構(gòu)數(shù)據(jù)流架構(gòu),代表了AI推理的未來方向。英偉達(dá)此次用200億美元“買斷”這條技術(shù)路線,正是“技術(shù)補(bǔ)位+生態(tài)壟斷”并購戰(zhàn)略的延續(xù)。而這種不計(jì)短期成本、鎖定長期技術(shù)優(yōu)勢(shì)的大手筆操作,底氣完全來自其充沛到近乎 “過?!?的現(xiàn)金流。據(jù)英偉達(dá)最新財(cái)報(bào),僅2026財(cái)年Q3,英偉達(dá)的自由現(xiàn)金流便達(dá)到了220.89億美元。
02為什么是Groq?
當(dāng)下,全球僅有兩個(gè)團(tuán)隊(duì)掌握TPU架構(gòu)技術(shù):谷歌與Groq。
在此之前,谷歌憑借TPU訓(xùn)練出優(yōu)質(zhì)模型引發(fā)市場(chǎng)關(guān)注,導(dǎo)致英偉達(dá)股價(jià)受挫,此次收編補(bǔ)齊了其在TPU架構(gòu)路線上的短板,在鞏固行業(yè)地位的同時(shí)為其估值提供了重要支撐。
王韋華表示,“英偉達(dá)這次押注LPU不單是為了對(duì)抗谷歌的TPU,TPU專注于矩陣運(yùn)算,更多還是強(qiáng)調(diào)在訓(xùn)練方面的優(yōu)勢(shì)。LPU 其實(shí)跟 TPU 相比的話,更專注于推理這一塊。以后在推理這塊誰能省最多的電?誰能在速度上面最有優(yōu)勢(shì)?目前看最有可能的方向就是LPU了?!弊鳛楣雀鑄PU的核心締造者,Jonathan Ross深知GPU處理線性代數(shù)運(yùn)算時(shí)的架構(gòu)冗余,離開谷歌后他以第一性原理為核心,選擇SRAM作為核心存儲(chǔ)、通過編譯器規(guī)劃數(shù)據(jù)路徑,打造低延遲LPU產(chǎn)品,其TPU開發(fā)經(jīng)驗(yàn)直接決定了Groq“順序延遲優(yōu)先”的技術(shù)路線。從谷歌TPU的靈魂人物,到出走自立門戶成立Groq,過程中的勢(shì)力角逐,歡迎添加作者微信IHAVEAPLANB-交流。
業(yè)內(nèi)人士告訴雷峰網(wǎng),TPU架構(gòu)的計(jì)算效率遠(yuǎn)超GPU的原因在于,GPU需經(jīng)歷“計(jì)算-傳數(shù)據(jù)至存儲(chǔ)-讀寫-再計(jì)算”的循環(huán),而TPU采用片上存儲(chǔ)直接計(jì)算,省去了數(shù)據(jù)往返存儲(chǔ)的環(huán)節(jié),效率極高。
當(dāng)token的吞吐量效率落地到用戶體驗(yàn)層面,Jonathan Ross表示,響應(yīng)時(shí)間每縮短 100 毫秒,桌面端用戶參與度就能提升8%,移動(dòng)端更是高達(dá)34%。業(yè)界早已形成共識(shí):當(dāng)用戶體驗(yàn)的響應(yīng)時(shí)間控制在250到300毫秒以內(nèi)時(shí),商業(yè)收益才能最大化。根據(jù)Groq 官方信息,實(shí)測(cè)數(shù)據(jù)顯示Groq LPU在運(yùn)行Llama 3.3 70B模型時(shí),token生成速度達(dá)284tokens/s,首token響應(yīng)時(shí)間僅為0.22s,運(yùn)行混合專家(MoE)模型時(shí)更是突破460 tokens/s。
這種極致性能讓Groq斬獲沙特王國15億美元業(yè)務(wù)承諾資金,也讓英偉達(dá)意識(shí)到,要統(tǒng)治推理市場(chǎng)需補(bǔ)齊這一短板。英偉達(dá)此前推出的H200、B300等推理優(yōu)化芯片,本質(zhì)仍是基于GPU架構(gòu)的改良,未能突破馮·諾依曼架構(gòu)的先天局限,而谷歌TPU、AMD MI300等競(jìng)爭(zhēng)對(duì)手,均在專用推理架構(gòu)上持續(xù)發(fā)力。
更嚴(yán)峻的是,Meta、谷歌等大客戶開始尋求算力供應(yīng)多元化,Anthropic甚至宣布接入100萬個(gè)谷歌TPU構(gòu)建計(jì)算集群。在此背景下,收購Groq成為英偉達(dá)快速搶占推理高地、留住核心客戶的最優(yōu)解。
“英偉達(dá)真正擅長的是訓(xùn)練,在這一領(lǐng)域它是最出色的。英偉達(dá)既不提供高速的token處理服務(wù),也沒有低成本的token解決方案,這便是Groq要解決的問題?!?/p>
在被英偉達(dá)納入麾下之前,Jonathan Ross曾在播客中公開聲明,英偉達(dá)與Groq并非競(jìng)爭(zhēng)對(duì)手,二者的產(chǎn)品完全是不同維度的存在。然而事實(shí)果真如此嗎?某機(jī)構(gòu)分析師說:“英偉達(dá)要忌憚的,是Groq代表的“去GPU化”技術(shù)路線可能引發(fā)的產(chǎn)業(yè)變革。英偉達(dá)的霸權(quán)建立在“GPU+CUDA生態(tài)+HBM/CoWoS稀缺產(chǎn)能”的三重護(hù)城河上,而Groq的技術(shù)路線恰恰繞開了這三大壁壘:可重構(gòu)架構(gòu)無需依賴CUDA生態(tài),采用GlobalFoundries和三星代工,不占用臺(tái)積電稀缺的CoWoS產(chǎn)能。”“一旦這條路線跑通,意味著AI芯片的生產(chǎn)門檻將大幅降低,其他設(shè)計(jì)公司無需依賴稀缺供應(yīng)鏈就能大規(guī)模生產(chǎn)推理芯片。英偉達(dá)以200億美元收編Groq,意味著將這條潛在的顛覆路線握在自己手中,確保算力革命的主導(dǎo)權(quán)不旁落?!?/p>
03推理市場(chǎng)變天?
“為了成為一名心血管外科醫(yī)生,你不可能花費(fèi)一生95%的時(shí)間接受培訓(xùn),真正手術(shù)的時(shí)間只占5%。實(shí)際情況恰恰相反:你經(jīng)過短暫培訓(xùn),隨后便會(huì)用余生持續(xù)實(shí)踐這項(xiàng)技能。”對(duì)于推理市場(chǎng)未來的演進(jìn)趨勢(shì),Jonathan Ross曾打過這么一個(gè)比方。2025年初Deepseek橫空出世時(shí),Jonathan Ross將其稱為AI行業(yè)的“斯普特尼克時(shí)刻”;當(dāng)下,推理市場(chǎng)也許將再次進(jìn)入“斯普特尼克時(shí)刻”。
據(jù)悉,在收購Groq后英偉達(dá)會(huì)將LPU作為專用的DAC硬件單元嵌入到CUDA生態(tài)系統(tǒng)中,以此保持CUDA編程的通用性。短期內(nèi),英偉達(dá)會(huì)通過NVFusion快速集成LPU;長期來看,則會(huì)在底層架構(gòu)和編譯器層面實(shí)現(xiàn)協(xié)同設(shè)計(jì),從而滿足性能場(chǎng)景下的高性能需求。由于推理場(chǎng)景和訓(xùn)練場(chǎng)景存在顯著差異,無法通過單一架構(gòu)解決所有問題,不同推理場(chǎng)景對(duì)大模型的工作負(fù)載要求各異,所以推理芯片架構(gòu)將呈現(xiàn)多樣化,需要針對(duì)細(xì)分場(chǎng)景進(jìn)行優(yōu)化。
業(yè)內(nèi)人士爆料,英偉達(dá)下一代Feynman GPU或?qū)⒂?028年集成Groq的LPU單元,采用類似AMD X3D方案的獨(dú)立芯片堆疊設(shè)計(jì),即利用臺(tái)積電的SoIC混合鍵技術(shù)將3D V-Cache芯片集成到主計(jì)算芯片上。
考慮到SRAM的擴(kuò)展性有限,將其作為單元芯片集成到Feynman GPU中可能并非明智之舉,因?yàn)樵谙冗M(jìn)制程上構(gòu)建SRAM將導(dǎo)致高端硅片的浪費(fèi),并大幅增加每片晶圓面積的使用成本,因此英偉達(dá)很可能會(huì)將LPU單元堆疊到Feynman芯片上?!斑@樣一來,像A16(1.6納米)這樣的芯片將用于主Feynman芯片,而獨(dú)立的LPU芯片將包含大型SRAM存儲(chǔ)體。此外,為了將這些芯片連在一起,臺(tái)積電的混合鍵合技術(shù)至關(guān)重要,因?yàn)樗芴峁└鼘挼慕涌?,并且與封裝外存儲(chǔ)器相比,每比特能耗更低。最重要的是,由于A16具有背面供電功能,正面將可用于垂直SRAM連接,從而確保低延遲的解碼響應(yīng)?!?/p>
可要做到上述也絕非易事,目前的主要問題仍在于CUDA在LPU風(fēng)格執(zhí)行中的行為方式,因?yàn)樗枰@式的內(nèi)存布局,而CUDA內(nèi)核設(shè)計(jì)初衷是為了實(shí)現(xiàn)硬件抽象。對(duì)于英偉達(dá)團(tuán)隊(duì)而言,在AI架構(gòu)中集成SRAM難度極高,這需要“工程奇跡”來確保LPU-GPU環(huán)境得到充分優(yōu)化。
來源:雷峰網(wǎng)
標(biāo)簽: 點(diǎn)擊: 評(píng)論: