硅谷觀察/鄭峻
黃仁勛終于得到了他最想要的東西。
本周美國政府正式批準英偉達向中國以及其他“經批準的客戶”出售高端的H200 GPU芯片,但需要向美國政府繳納25%的銷售提成。這一提成比例同樣適用于AMD、英特爾等其他美國芯片巨頭。不過,英偉達最新的Blackwell和未來的Rubin系列GPU仍然禁止出口。
這標志著黃仁勛長達數月的游說取得成功。過去半年時間,他不斷造訪佛羅里達與華盛頓,隨著特朗普總統一道出訪和出席國宴,向白宮宴會廳建設工程捐款,就是為了這一刻。就在上周,他再一次來到白宮會見總統,終于如愿以償得到了解鎖禁運令。
受這一利好消息推動,英偉達股價盤后應聲上漲。受美國政府連續多道芯片加碼禁運令限制,過去兩年時間,英偉達一步步失去迅猛增長的中國市場,丟掉了在AI GPU市場原先高達95%的份額。在英偉達最核心的數據中心業務,中國市場的營收占比也從原先的四分之一急劇下滑。
心急如焚的黃仁勛在兩個月前公開抱怨,“我們已經失去了全球最大的市場之一,在中國市場完全出局,市場份額已經歸零。”即便是向美國政府繳納四分之一的提成,對英偉達的業績營收也意義重大,因為中國AI GPU今年規模估計高達200億-300億美元(中商產業研究院數據)。
然而,黃仁勛在努力爭取重新打開另一個市場的時候,或許還要擔憂自己的后方。因為群狼已經圍上來了:他們最大的AI芯片客戶,谷歌、亞馬遜、微軟這三大巨頭,即Hyperscalers(超大規模云服務商),正在加速普及自己的自研芯片。
英偉達無疑是生成式AI時代的領軍公司。在AI芯片這個萬億級賽道中,英偉達以壓倒的性能優勢和CUDA平臺優勢占據主導地位,其GPU 產品線幾乎壟斷了八成 以上的市場份額。英偉達也因此成為全球最具價值的上市公司,市值甚至一度突破5萬億美元。
雖然英偉達數據中心業務營收高達1300億美元(最近財年),但卻存在一個巨大隱患:客戶集中度過高,過度依賴于幾大AI巨頭。其中,前兩大客戶營收占比39%,前三大客戶營收占比高達53%。
據媒體猜測,黃仁勛的前五大客戶正是:微軟、谷歌、亞馬遜、Meta和甲骨文。而這前三大巨頭正在加速轉用自研芯片,同時拉攏第四大客戶。這些自研芯片的部署,不僅會直接減少英偉達的芯片訂單,更有可能在公開市場給英偉達帶來威脅。
AWS低成本推理殺手
在上周拉斯維加斯召開的re:Invent年度開發者大會上,全球云計算市場的領頭羊亞馬遜AWS連續公布了一系列重磅產品,清晰地展示了在AI熱潮中占據市場主導以及推動行業潮流變化的雄心。
最引人注目的當屬亞馬遜新一代自研 AI 芯片:Trainium 3。 諸多媒體將Trainium3 譽為“對英偉達的直接宣戰”。這是亞馬遜自2022年以來的第三代AI芯片,主打低成本與推理兩大優勢。
AWS CEO馬特·加曼(Matt Garman)宣布,第三代芯片訓練速度比前代快 4 倍,成本減半, 特別適合亞馬遜Nova 2 模型家族的部署,支持百萬芯片級集群。 與英偉達相當的 GPU 系統相比Trainium3 可節省 50% 訓練費用。現場演示顯示,Trainium3 在 Llama 3.1 訓練中,僅需 24 小時完成相當于 H100 集群一周的任務。
低成本是最大的賣點,AWS官方將 Trainium3 定位為英偉達GPU的低成本替代品。他們表示,對于愿意采用其 Neuron軟件棧和 Trainium實例的客戶,基于 Trainium 的實例可以將大型模型的訓練成本(通常還包括推理成本)比同類GPU集群可以降低高達約 50%。
亞馬遜此次大會的諸多發布相當于擺明態度:要用自研芯片、自研模型、私有化部署以及智能體全家桶,把從訓練到推理、從云端到本地、從通用模型到定制模型的整條 AI 賽道都牢牢攥在自己手里。云計算巨頭AWS擺明自研方向,這無疑會對AI基礎設施市場的未來走向帶來重大影響。
目前AWS 在云計算市場仍保持巨大領先優勢,為大大小小的客戶提供云端 AI 算力,支持他們自由選擇各種大模型。AWS目前的市場份額超過三成,而排名二三位的微軟與谷歌市場份額為20%與16%。(基于Synergy Research的統計數據)
從Anthopic到OpenAI再到Meta,諸多AI巨頭與創業公司都在廣泛使用亞馬遜的AWS云服務。就在上個月,OpenAI宣布與AWS簽署合作協議,七年采購價值380億美元的AI基礎設施服務。AWS還強調,Anthropic等 AI 初創公司已轉向 Trainium,節省了超過三成的預算。
谷歌拉到Meta大客戶
谷歌是行業最早自研芯片的巨頭,其第一代TPU早在2016年發布,已經成為AI基礎設施巨頭挑戰英偉達的行業標桿。就在上個月,谷歌在他們的Cloud Next云計算大會上發布第七代TPU v7 Ironwood,進一步讓英偉達感受到了壓力。
Ironwood 的核心亮點是性能躍升:單芯片 FP8 計算達4.6 PFLOPS(每秒 1000 萬億次浮點計算),比 第五代TPU提升 10 倍,是第六代TPU的 4 倍。
谷歌強調 Ironwood 專為“高吞吐、低延遲”推理優化,適用于 Gemini 3 等多模態模型。相比英偉達王牌的Blackwell,Ironwood 在能效上領先 20%,功耗僅 300W/芯片。 這得益于其 systolic array架構和自定義互連,可以專攻矩陣乘法等 AI 核心運算。
谷歌在TPU 的演進上穩步前進:從 v1 的純訓練芯片,到 v7 原生支持 FP8,谷歌已覆蓋從邊緣設備(Edge TPU)到超大規模 Pod 的全棧。從戰略上看,Google 的 TPU 不僅是硬件,更是云生態的“殺手锏”。
對英偉達來說,谷歌帶來的威脅已經日益明顯。2025 年,谷歌的 AI 芯片市場份額預計已經達到 8%, 尤其在占 AI 算力 80% 的推理領域。SemiAnalysis 分析稱,Ironwood “顯著縮小了與 NVIDIA 旗艦的浮點計算性能差距”。
谷歌聲稱,使用 TPU 可將訓練成本降 40%,吸引了 Meta 等第三方客戶。據媒體報道,Meta已經計劃在2027年部署谷歌TPU,繞過英偉達的芯片。谷歌Ironwood 服務器將交由富士康代工。而Meta正是英偉達AI芯片的第四大客戶。這一打擊是雙重的。
雖然黃仁勛依然以樂觀口吻應對谷歌TPU帶來的威脅,強調英偉達的多平臺兼容與供應鏈優勢,認為巨頭自研芯片不會動搖英偉達的“護城河”(生態和軟件棧),但他也不得不承認市場競爭會讓投資者感到擔憂。
微軟搶不過巨頭量產延誤
相比亞馬遜和谷歌在自研芯片方面的穩步推進和大規模部署,微軟在這領域暫時還在交學費,遭受了跳票挫折。微軟自研芯片首代 Maia 100 于 2024 年推出,專為自家的Azure AI 優化,今年開始大規模部署。但原本計劃今年發布的 Maia 200(代號 Braga)的大規模量產已經推遲至2026 年。
今年10月,微軟宣布 Maia 100 已部署于 Azure 數據中心,支持 OpenAI 模型訓練。 這是微軟與博通合作開發的芯片,預計比英偉達的H100芯片成本低40%。而未來三代(代號分別為Braga、Braga-R 和 Cobalt)計劃覆蓋訓練、推理和邊緣。
Maia芯片的最大優勢自然是與微軟Azure的原生態結合——集成 DirectML 框架,吸引企業客戶私有化部署。Maia 系列聚焦多模態 AI,例如突出微軟Copilot的語音和視覺處理,單芯片 BF16 性能達 2 PFLOPS。
微軟CTO凱文·斯科特(Kevin Scott)表示,公司未來將“主要使用自家芯片”,目標減少對英偉達芯片的嚴重依賴。但微軟的這一目標卻遭到了Maia量產推遲的打擊。根據媒體報道,Maia 200量產延誤主要是由于設計變更、仿真不穩定等技術與內部因素。
但另一方面,臺積電的產能瓶頸也是現實限制因素。畢竟臺積電先進制程(如 N3/N2/高級封裝)目前是全球最搶手的生產能力,英偉達、蘋果、AMD等巨頭客戶都在爭搶產能。產線幾乎被預定一空,排期非常緊張。
臺積電通常會根據訂單時間、技術節點、客戶戰略價值等進行安排。微軟既不是臺積電的大客戶,自身芯片設計也沒有完善,只能排在后面的非優先級。微軟想減少對英偉達的依賴,這是戰略必要,但芯片從設計到大規模量產之間仍有長期供應鏈競爭。
在臺積電那里產能搶不過芯片巨頭,微軟只能轉向英特爾的18A節點,計劃在明年實現量產。這一延誤給微軟帶來了巨大的額外開支。如果Maia二代不能及時規模部署,微軟明年可能還要投入100億美元購買英偉達芯片。
性能vs成本巔峰對決
雖然目前英偉達依然在AI 芯片領域占據絕對話語權,但 三大巨頭的自研浪潮正給市場帶來巨大變數。2025 年谷歌、亞馬遜和微軟先后發布的最新自研芯片,預示著 2026 年將是一場“性能 vs. 成本”的巔峰對決。
性能技術依然是英偉達的核心優勢,谷歌微軟亞馬遜的自研芯片都只能強調成本優勢。英偉達今年的Blackwell 架構B200 GPU,單芯片 FP8 計算能力達 20 PFLOPS(每秒千萬億次浮點運算),比前代 H100 提升 4 倍。
在推理任務中,Blackwell的能效比谷歌TPU 高出 30%,這得益于其先進的 NVLink 互聯技術和 Transformer 引擎優化。黃仁勛對此充滿信心,正如在 GTC 2025 大會上宣稱:“我們的 GPU 領先競爭對手整整一代。”
這種領先不僅體現在峰值性能,還包括軟件棧的深度整合:CUDA 平臺支持 4000 多個 AI 框架和庫,開發者生態龐大到“開箱即用”。這才是英偉達的真正護城河。相比之下,AI巨頭們的自研芯片往往需額外適配,增加了開發者的遷移成本。
但成本卻是AI巨頭自研芯片的最大賣點。亞馬遜Trainium3 已宣稱可將訓練成本降至前代的 50%, 谷歌 Ironwood TPU 在推理任務中,能效比英偉達H100 高出 20-30%。進入 2026 年,這一差距將進一步拉大。
此外,AI巨頭正通過“漸進式”策略蠶食英偉達的CUDA優勢。谷歌的JAX 和 PyTorch/XLA 集成已覆蓋 70% AI 工作負載, AWS Neuron SDK 支持 Llama 和 Stable Diffusion 等開源模型, 而 微軟的DirectML 則無縫嵌入 Visual Studio,吸引企業開發者。
亞馬遜AWS 計劃在 Trainium4 上集成 NVLink 兼容技術,實現與 英偉達GPU 的無縫混合部署,預計訓練費用再降 40%。 與此同時,2027年商用的谷歌TPU v8將引入光子互聯和更先進的 systolic array 架構,針對多模態模型如 Gemini 4 的推理優化,成本優勢或達 50% 以上。
四分之一市場份額
亞馬遜的目標是在明年達到50%的自研占比,推動AWS在 AI 云市場的份額從 31% 升至 35%。他們是Anthropic的最大投資者和云服務商。因此Anthropic的大模型訓練主要靠AWS Trainium芯片。
而谷歌TPU 的市場份額更是已悄然攀升至 8%。他們從今年開始向外部客戶積極銷售原先自用的TPU,目前的外部銷售占比已經達到了20%。隨著2027年Meta轉用TPU,英偉達將真正感受到谷歌帶來的競爭壓力。
今年10月,Anthropic與谷歌簽署了價值數百億美元的協議,計劃使用多達100萬片TPU,其中包括40萬片Ironwood,其余通過谷歌云租賃。換句話說,現在AI大模型公司都在推動芯片多元化,盡可能同時使用多家芯片,而不是只依賴于英偉達GPU。
黃仁勛傳記作者、非常了解英偉達的史蒂芬·維特(Stephen Witt)認為,“英偉達最大的風險顯然是谷歌,如果谷歌證明他們可以用自家芯片維持領先AI開發,那么這將給其他巨頭樹立榜樣。”
即便加緊部署自研芯片,這些巨頭也會未來幾年繼續采購英偉達。一個值得體會的細節是,谷歌和亞馬遜在發布自研芯片時,都會提前通知英偉達,因為他們希望繼續維持與英偉達的良好關系,繼續保證自己的芯片供應。
未來這些巨頭自研芯片會達到多少份額?黃仁勛的直接競爭對手、AMD CEO蘇姿豐對谷歌TPU給出了非常高的評價。“多年來,谷歌在 TPU 架構上做得很好。但 TPU 是一種更偏向特定用途的設計,它缺乏 GPU 所具備的可編程性、模型靈活性,以及訓練與推理能力之間的平衡。GPU 將高度并行架構與高可編程性相結合,從而能夠實現快速創新。”
“從我們的角度來看,各種類型的加速器都有空間。然而,在未來五年內,GPU 仍將明顯占據市場大部分份額,因為我們仍處于行業周期的早期階段,軟件開發者希望擁有實驗新算法的靈活性。因此,給 ASIC 類加速器(三大巨頭的自研芯片都是)留出 20%–25% 的市場份額是合理的。”
換句話說,她認為三大巨頭的自研芯片可能在未來奪走四分之一的市場份額。而且,蘇姿豐還計劃AMD在未來3-5年,搶到兩位數的市場份額。以及,英偉達在中國市場同樣要面臨華為、寒武紀等本土競爭對手。