英偉達巨額收購推理芯片獨角獸 Groq

熱設(shè)計網(wǎng) 2026-01-13

“黃仁勛這200億美元，買的其實就是Jonathan Ross這個人，押注在此英偉達未來可能會賺回三倍的錢，所以200 億美元實在不算貴?！蹦惩顿Y人近日向雷峰網(wǎng)透露。

2025年12月24日，英偉達以其史上最大規(guī)模交易額200億美金，將推理芯片獨角獸Groq的核心技術(shù)與團隊收入麾下。Groq創(chuàng)始人、谷歌TPU初代核心開發(fā)者Jonathan Ross帶隊加盟英偉達，其獨創(chuàng)的LPU芯片技術(shù)將融入英偉達AI Factory架構(gòu)。當下AI行業(yè)正從“規(guī)模競賽期”轉(zhuǎn)向“效率價值兌換期”，推理側(cè)需求大于訓練側(cè)需求已成為普遍共識。面對推理市場的爆發(fā)式增長，Groq的專屬LPU芯片以5-10倍于GPU 的速度優(yōu)勢，以及1/10的成本優(yōu)勢，成為異軍突起的核心玩家，而黃仁勛最終還是選擇了將這條攪動市場的鯰魚收入囊中。這究竟是招安潛在對手的緩兵之計，還是壟斷推理市場的霸權(quán)布局？

01重金收編的核心是什么？

2026年CES大會期間，英偉達管理層在面向投資者的會議上強調(diào)，此次收購Groq不會對核心業(yè)務(wù)產(chǎn)生沖擊，反而將為公司開辟全新的增長空間。而這樁被包裝成“非獨家技術(shù)授權(quán)”的交易，本質(zhì)是硅谷近年流行的“收購式招聘”的升級版：用授權(quán)的名義實現(xiàn)“人才+技術(shù)”的雙收。瑞銀分析師團隊在研報中直言：“這是一場沒有收購之名的完全收購，英偉達用最小的監(jiān)管風險，獲得了最核心的戰(zhàn)略資產(chǎn)?！备鶕?jù)披露信息，英偉達所支付的200億美元中，130億已即時到賬，剩余款項中包含核心員工的股權(quán)激勵，其中Groq CEO Jonathan Ross個人獲得數(shù)億美元英偉達股權(quán)。團隊核心成員則幾乎全員轉(zhuǎn)入英偉達，芯片設(shè)計、編譯器開發(fā)等核心資產(chǎn)也盡數(shù)歸入英偉達體系。“黃仁勛這200億美元買的其實就是Jonathan Ross這個人，因為Jonathan Ross是個非一般意義的天才。如果拿黃仁勛類比杰夫里辛頓（深度學習教父）的話，那Jonathan Ross就要類比伊利亞（OpenAI聯(lián)合創(chuàng)始人兼首席科學家）?！碧μ\花園播客主理人、資深私募投資人王韋華告訴雷峰網(wǎng)。

作為谷歌初代TPU的核心設(shè)計者，Jonathan Ross早在2016年Groq成立時就已預判推理將成為規(guī)?；y題，并率先提出“推理市場規(guī)模終將遠超訓練”。他提前洞悉到推理的核心需求是“低延遲、高能效、低成本”，而非計算密度。因此他摒棄了GPU架構(gòu)改良思路，從零打造專為推理設(shè)計的LPU架構(gòu)。LPU架構(gòu)完全圍繞“消除數(shù)據(jù)搬運延遲”展開，采用無外置內(nèi)存、全片上SRAM作為主存的設(shè)計，片上帶寬達80TB/s，是Blackwell B300 的HBM帶寬8TB/s的10倍。成本方面，Jonathan Ross曾在福布斯獨家專訪中公開聲明，“Groq LPU在LLM推理速度快10倍同時，成本是Nvidia GPU的1/10，功耗是Nvidia GPU的1/10?！边@種集性能與成本優(yōu)勢于一身的提升，精準擊中了英偉達在推理賽道的核心短板，也成為黃仁勛不惜斥資 200億果斷出手的關(guān)鍵所在。另一方面，回溯英偉達過往的并購布局便不難發(fā)現(xiàn)，這場交易也并非偶然。

2000年，英偉達以7000萬美元+100萬股普通股收購了3dfx核心圖形資產(chǎn)，奠定GPU領(lǐng)域統(tǒng)治基礎(chǔ)；2013年，收購了HPC編譯器龍頭PGI，強化了CUDA生態(tài)在高性能計算領(lǐng)域的核心支撐；2019年，以約69億美元收購了Mellanox，補全數(shù)據(jù)中心網(wǎng)絡(luò)短板。王韋華認為，“LPU現(xiàn)在已經(jīng)不是0億美金市場了，但黃仁勛再次早于別人發(fā)現(xiàn)了LPU的重要性。英偉達現(xiàn)在收購Groq，甚至比2019年收購Mellanox的重要性要更大，這一步直接讓英偉達在推理端領(lǐng)先兩三年。雖然在英偉達整個數(shù)據(jù)中心的建設(shè)里推理占比不大，但只要它在技術(shù)上保持領(lǐng)先就會產(chǎn)生巨大的杠桿效應(yīng)?！北M管Groq當前的市占率遠未對英偉達構(gòu)成直接威脅，但它掌握的可重構(gòu)數(shù)據(jù)流架構(gòu)，代表了AI推理的未來方向。英偉達此次用200億美元“買斷”這條技術(shù)路線，正是“技術(shù)補位+生態(tài)壟斷”并購戰(zhàn)略的延續(xù)。而這種不計短期成本、鎖定長期技術(shù)優(yōu)勢的大手筆操作，底氣完全來自其充沛到近乎 “過剩” 的現(xiàn)金流。據(jù)英偉達最新財報，僅2026財年Q3，英偉達的自由現(xiàn)金流便達到了220.89億美元。

02為什么是Groq？

當下，全球僅有兩個團隊掌握TPU架構(gòu)技術(shù)：谷歌與Groq。

在此之前，谷歌憑借TPU訓練出優(yōu)質(zhì)模型引發(fā)市場關(guān)注，導致英偉達股價受挫，此次收編補齊了其在TPU架構(gòu)路線上的短板，在鞏固行業(yè)地位的同時為其估值提供了重要支撐。

王韋華表示，“英偉達這次押注LPU不單是為了對抗谷歌的TPU，TPU專注于矩陣運算，更多還是強調(diào)在訓練方面的優(yōu)勢。LPU 其實跟 TPU 相比的話，更專注于推理這一塊。以后在推理這塊誰能省最多的電？誰能在速度上面最有優(yōu)勢？目前看最有可能的方向就是LPU了。”作為谷歌TPU的核心締造者，Jonathan Ross深知GPU處理線性代數(shù)運算時的架構(gòu)冗余，離開谷歌后他以第一性原理為核心，選擇SRAM作為核心存儲、通過編譯器規(guī)劃數(shù)據(jù)路徑，打造低延遲LPU產(chǎn)品，其TPU開發(fā)經(jīng)驗直接決定了Groq“順序延遲優(yōu)先”的技術(shù)路線。從谷歌TPU的靈魂人物，到出走自立門戶成立Groq，過程中的勢力角逐，歡迎添加作者微信IHAVEAPLANB-交流。

業(yè)內(nèi)人士告訴雷峰網(wǎng)，TPU架構(gòu)的計算效率遠超GPU的原因在于，GPU需經(jīng)歷“計算-傳數(shù)據(jù)至存儲-讀寫-再計算”的循環(huán)，而TPU采用片上存儲直接計算，省去了數(shù)據(jù)往返存儲的環(huán)節(jié)，效率極高。

當token的吞吐量效率落地到用戶體驗層面，Jonathan Ross表示，響應(yīng)時間每縮短 100 毫秒，桌面端用戶參與度就能提升8%，移動端更是高達34%。業(yè)界早已形成共識：當用戶體驗的響應(yīng)時間控制在250到300毫秒以內(nèi)時，商業(yè)收益才能最大化。根據(jù)Groq 官方信息，實測數(shù)據(jù)顯示Groq LPU在運行Llama 3.3 70B模型時，token生成速度達284tokens/s，首token響應(yīng)時間僅為0.22s，運行混合專家（MoE）模型時更是突破460 tokens/s。

這種極致性能讓Groq斬獲沙特王國15億美元業(yè)務(wù)承諾資金，也讓英偉達意識到，要統(tǒng)治推理市場需補齊這一短板。英偉達此前推出的H200、B300等推理優(yōu)化芯片，本質(zhì)仍是基于GPU架構(gòu)的改良，未能突破馮·諾依曼架構(gòu)的先天局限，而谷歌TPU、AMD MI300等競爭對手，均在專用推理架構(gòu)上持續(xù)發(fā)力。

更嚴峻的是，Meta、谷歌等大客戶開始尋求算力供應(yīng)多元化，Anthropic甚至宣布接入100萬個谷歌TPU構(gòu)建計算集群。在此背景下，收購Groq成為英偉達快速搶占推理高地、留住核心客戶的最優(yōu)解。

“英偉達真正擅長的是訓練，在這一領(lǐng)域它是最出色的。英偉達既不提供高速的token處理服務(wù)，也沒有低成本的token解決方案，這便是Groq要解決的問題。”

在被英偉達納入麾下之前，Jonathan Ross曾在播客中公開聲明，英偉達與Groq并非競爭對手，二者的產(chǎn)品完全是不同維度的存在。然而事實果真如此嗎？某機構(gòu)分析師說：“英偉達要忌憚的，是Groq代表的“去GPU化”技術(shù)路線可能引發(fā)的產(chǎn)業(yè)變革。英偉達的霸權(quán)建立在“GPU+CUDA生態(tài)+HBM/CoWoS稀缺產(chǎn)能”的三重護城河上，而Groq的技術(shù)路線恰恰繞開了這三大壁壘：可重構(gòu)架構(gòu)無需依賴CUDA生態(tài)，采用GlobalFoundries和三星代工，不占用臺積電稀缺的CoWoS產(chǎn)能。”“一旦這條路線跑通，意味著AI芯片的生產(chǎn)門檻將大幅降低，其他設(shè)計公司無需依賴稀缺供應(yīng)鏈就能大規(guī)模生產(chǎn)推理芯片。英偉達以200億美元收編Groq，意味著將這條潛在的顛覆路線握在自己手中，確保算力革命的主導權(quán)不旁落。”

03推理市場變天？

“為了成為一名心血管外科醫(yī)生，你不可能花費一生95%的時間接受培訓，真正手術(shù)的時間只占5%。實際情況恰恰相反：你經(jīng)過短暫培訓，隨后便會用余生持續(xù)實踐這項技能?！睂τ谕评硎袌鑫磥淼难葸M趨勢，Jonathan Ross曾打過這么一個比方。2025年初Deepseek橫空出世時，Jonathan Ross將其稱為AI行業(yè)的“斯普特尼克時刻”；當下，推理市場也許將再次進入“斯普特尼克時刻”。

據(jù)悉，在收購Groq后英偉達會將LPU作為專用的DAC硬件單元嵌入到CUDA生態(tài)系統(tǒng)中，以此保持CUDA編程的通用性。短期內(nèi)，英偉達會通過NVFusion快速集成LPU；長期來看，則會在底層架構(gòu)和編譯器層面實現(xiàn)協(xié)同設(shè)計，從而滿足性能場景下的高性能需求。由于推理場景和訓練場景存在顯著差異，無法通過單一架構(gòu)解決所有問題，不同推理場景對大模型的工作負載要求各異，所以推理芯片架構(gòu)將呈現(xiàn)多樣化，需要針對細分場景進行優(yōu)化。

業(yè)內(nèi)人士爆料，英偉達下一代Feynman GPU或?qū)⒂?028年集成Groq的LPU單元，采用類似AMD X3D方案的獨立芯片堆疊設(shè)計，即利用臺積電的SoIC混合鍵技術(shù)將3D V-Cache芯片集成到主計算芯片上。

考慮到SRAM的擴展性有限，將其作為單元芯片集成到Feynman GPU中可能并非明智之舉，因為在先進制程上構(gòu)建SRAM將導致高端硅片的浪費，并大幅增加每片晶圓面積的使用成本，因此英偉達很可能會將LPU單元堆疊到Feynman芯片上?！斑@樣一來，像A16（1.6納米）這樣的芯片將用于主Feynman芯片，而獨立的LPU芯片將包含大型SRAM存儲體。此外，為了將這些芯片連在一起，臺積電的混合鍵合技術(shù)至關(guān)重要，因為它能提供更寬的接口，并且與封裝外存儲器相比，每比特能耗更低。最重要的是，由于A16具有背面供電功能，正面將可用于垂直SRAM連接，從而確保低延遲的解碼響應(yīng)。”

可要做到上述也絕非易事，目前的主要問題仍在于CUDA在LPU風格執(zhí)行中的行為方式，因為它需要顯式的內(nèi)存布局，而CUDA內(nèi)核設(shè)計初衷是為了實現(xiàn)硬件抽象。對于英偉達團隊而言，在AI架構(gòu)中集成SRAM難度極高，這需要“工程奇跡”來確保LPU-GPU環(huán)境得到充分優(yōu)化。

來源：雷峰網(wǎng)

標簽：點擊：評論:

本文地址： http://www.0532yewu.com/xingyezixun/News/3297.html

版權(quán)聲明：除非特別標注，否則均為本站原創(chuàng)文章，轉(zhuǎn)載時請以鏈接形式注明文章出處。

98新超碰,人人澡人人爱,麻豆精品传媒国,碰国产久久久,思思99热久在线播放,青青草五月婷婷,日韩国产精品在线,久久亚洲成人,久久88视频网站

英偉達巨額收購 推理芯片獨角獸 Groq

英偉達巨額收購推理芯片獨角獸 Groq