(本文作者为 云石乱笔,钛媒体经授权发布)
文 | 云石乱笔
2026年3月20日,NVIDIA确认将在2027年底前向AWS交付一百万颗GPU,同时搭售Spectrum网络芯片和Groq推理芯片。三个月前,AWS和NVIDIA在re:Invent 2025上宣布,AWS的下一代自研芯片Trainium4将接入NVIDIA的NVLink Fusion平台。
还是在这个月,TechCrunch的一次独家实验室探访揭开了另一面:Trainium已经部署了140万颗芯片,Anthropic的Claude正跑在超过100万颗Trainium2上,Andy Jassy称其为"数十亿美元级业务"。
一边是百万GPU的巨额采购和NVIDIA平台的深度融合,另一边是自研芯片已经拿下最重要的客户。AWS的自研故事既不是走向独立,也不是走向投降,而是走向一种新型的"竞合共生"。这究竟是务实的智慧,还是危险的依赖?
不只是GPU:七颗芯片的全栈渗透
表面上看,这是一笔GPU大单。一百万颗GPU,2026年开始交付,2027年底完成。按NVIDIA当前Blackwell架构的定价估算,这笔交易的金额可能在300至500亿美元量级。
但交易的完整清单更值得细看。NVIDIA副总裁Ian Buck在接受采访时透露,这笔交易涉及七种不同的NVIDIA芯片。他的原话是:"To be the best at inference, it is not a one chip pony. We actually use all seven chips."(要在推理领域做到最好,不是靠一颗芯片就能搞定的。我们实际上用了全部七颗芯片。)

这七种芯片至少包括:GPU(用于训练和推理)、Groq推理专用芯片、Spectrum网络交换芯片、ConnectX网络接口卡,以及其他专用处理器。
这不是一次简单的硬件采购。NVIDIA正在将自己的整个AI基础设施栈,计算、网络、推理优化,一整套植入到AWS的数据中心。
Trainium:一个已经被证明的数十亿美元赌注
2025年12月的re:Invent大会上,AWS CEO Matt Garman站在台上,用了大量篇幅介绍Trainium3。三个月后,AWS转身签下了一百万颗NVIDIA GPU的订单。
大多数观察者的第一反应是:AWS对自研芯片失去了信心。
但如果他们走进位于奥斯汀The Domain区那栋闪着铬色玻璃幕墙的大楼,看看Annapurna Labs(AWS于2015年以约3.5亿美元收购的以色列芯片设计公司)的实验室里正在发生什么,结论或许会截然不同。
截至2026年3月,AWS已经在三代产品上累计部署了140万颗Trainium芯片。其中Anthropic的Claude模型正运行在超过100万颗Trainium2上。仅Project Rainier一个集群——全球最大的AI计算集群之一 — 就集成了50万颗Trainium2芯片,于2025年底投入运营。
Trainium2还承担了Amazon Bedrock服务上大部分的推理流量。AWS CEO Andy Jassy在2025年12月公开表示,Trainium已经是AWS的"数十亿美元级业务"。
而绑定还在加深:据Business Insider报道,Anthropic已正式承诺采购100万颗Trainium芯片,这一承诺涵盖已部署的芯片和未来的增量订单,进一步将自己的未来押注在AWS的自研芯片生态上。
这些数字彻底改写了"自研芯片还在蹒跚学步"的叙事。Trainium不是一个有待证明的实验,它是一个已经大规模部署、拿下最重要的AI客户、正在创造数十亿美元收入的生产级产品。
Trainium3:在成功基础上的激进跃升
在Trainium2已经站稳脚跟的基础上,Trainium3的野心更大。如果你仔细研读SemiAnalysis发布的技术深度分析,会发现Trainium3是AWS有史以来设计最激进的AI芯片。
几个关键数字足以说明它的分量:台积电3纳米制程(N3P),144GB高带宽内存(Trainium2只有72GB),内存带宽提升70%,AI计算性能翻倍。Amazon宣称,搭载Trainium3的Trn3 UltraServer在同等性能下的运行成本比传统云服务器低50%。当每天处理数万亿tokens时,这个差距会积累成巨大的竞争优势。
但比芯片本身更有野心的是它的系统设计。AWS为Trainium3打造了名为NeuronLink的自研互联架构,每颗芯片的通信带宽达到1.2 TB/s,并设计了两种机架形态:风冷版(64颗芯片组成计算集群)和液冷版(144颗芯片,设计思路直接对标NVIDIA的GB200 NVL72)。更巧妙的是,机架内的交换模块设计了三代演进路线,每一代都可以在现场升级,无需替换计算硬件。
实验室主任Kristopher King在接受TechCrunch采访时说,Trainium3配合团队自研的Neuron交换机,让"每颗芯片都能与其他所有芯片在mesh配置中直接通信,大幅降低延迟"。工程总监Mark Carroll则称,这套组合"正在刷新各种记录",尤其是"每瓦性能"指标。
这种"先上车后换票"的工程哲学,是AWS作为云运营商与NVIDIA作为芯片厂商在设计理念上的根本分歧。NVIDIA追求的是峰值性能,AWS追求的是运营灵活性。
供应链层面同样下了重注。AWS通过股权认购权(warrant)协议与核心供应商深度绑定,拿到了远低于市场价的元器件成本。SemiAnalysis的描述是,有的供应商"实质上是倒贴钱让Amazon拿走零部件"。
所以问题不是Trainium能不能行——它已经证明了自己。问题是:既然Trainium已经如此成功,AWS为什么还要买一百万颗NVIDIA GPU?
时间窗口的残酷算术
答案不在芯片本身,而在时间和规模。
Trainium3的液冷版本2025年12月发布,正在爬坡量产。而NVIDIA的GB200 NVL72已经在2025年上半年开始出货。在AI模型训练的军备竞赛中,6到12个月的时间差足以决定一个模型世代的成败。
更关键的是客户需求的爆发速度。实验室主任King坦言:"我们的客户群在以我们能交付产能的最快速度扩张。"Anthropic和Amazon自己的Bedrock服务消耗Trainium芯片的速度,已经超过了Amazon的生产能力。在这种供不应求的局面下,百万颗NVIDIA GPU不是替代品,而是必需品。
百万GPU订单不是对Trainium的否定票,而是对AI算力需求爆炸式增长的直接回应。AWS无法单靠自研芯片满足所有客户的胃口,它需要NVIDIA的产能来填补Trainium供应链的时间差。
再者,但软件生态仍是Trainium需要持续投入的领域。
AWS的Neuron SDK目前已经走向开源,包括原生PyTorch后端、NKI(Neuron Kernel Interface)编译器、以及矩阵乘法和通信库。迁移门槛正在大幅降低:工程总监Carroll表示,从NVIDIA GPU迁移到Trainium"基本上只需要改一行代码,重新编译,然后就能跑"。这种说法或许有宣传、夸大之嫌,但方向是明确的:AWS正在系统性地瓦解CUDA的护城河。
不过,一个关键限制暴露了成熟度的差距:目前Neuron SDK仅支持Logical NeuronCore(LNC)等于1或2的配置,LNC=8的支持要到2026年中才能就绪。对于需要更灵活地映射算子到计算单元的前沿模型研究者来说,这意味着Trainium3在上市初期还无法完全释放其硬件潜力。
NVIDIA花了十几年打造CUDA生态。从编程模型、编译器、调试工具,到数千个优化过的算子库,再到PyTorch和TensorFlow的深度集成,这个生态的厚度不是靠一两代芯片就能追平的。但AWS正在用一种不同的策略去啃这块硬骨头:不是正面取代CUDA,而是通过PyTorch兼容层和开源生态,让开发者以最低成本尝试Trainium。谷歌(Google)TPU走的是另一条路,用封闭生态配合十年不动摇的投入,最终在自有模型(Gemini)上证明了价值。AWS能否在开源路线上做到同样的坚持,是一个尚待回答的问题。回想曾经的Apache MxNet, 很难让人建立完全的信任。
网络之战:三条路线的角力
如果说芯片竞争还有迹可循,网络层面的博弈则更加复杂。AWS现在同时运行着三种不同的高性能互联方案,它们分别服务于不同的场景,但彼此之间存在微妙的竞争关系。
第一条路线:EFA(Elastic Fabric Adapter)。AWS自研的scale-out网络方案,基于SRD(Scalable Reliable Datagram)协议,最新版本提供每实例400 Gbps带宽,深度整合Nitro虚拟化层。EFA的优势在于多租户隔离和VPC集成,是AWS通用GPU实例(如P5、P6)和HPC场景的标准互联。
第二条路线:NeuronLink。Trainium3的自研scale-up互联,基于PCIe Gen 6交换架构。每芯片1.2 TB/s单向带宽,64至144颗芯片可以组成一个紧耦合的计算域。NeuronLink的定位类似于NVIDIA的NVLink,但实现路径完全不同。它使用标准PCIe协议而非专有协议,牺牲了一定的峰值带宽,换来了供应链的多元化和硬件的现场可升级性。
第三条路线:NVIDIA Spectrum-X。这次交易中最出人意料的元素。Spectrum-X是NVIDIA在2024年3月GTC大会上发布的AI专用以太网平台,集交换芯片、智能网卡和数据处理单元于一体,专门为GPU集群间的通信模式做了深度优化。官方数据显示其AI工作负载性能比传统以太网提升1.7倍,支持最多32,000颗GPU组成的单一集群。
AWS采购Spectrum-X,最直接的解读是:对于百万颗NVIDIA GPU组成的超大规模集群,EFA的scale-out性能天花板不够高,而NeuronLink只服务于Trainium芯片。AWS需要一个能与NVIDIA GPU深度配合的网络方案,而在这个领域,没有人比NVIDIA自己做得更好。
但还有一层更深的含义。2025年底,AWS和NVIDIA宣布Trainium4将接入NVIDIA的NVLink Fusion平台,这意味着AWS下一代自研芯片的scale-up互联将直接使用NVIDIA的NVLink技术。Spectrum-X的采购,从这个角度看,是AWS开始拥抱NVIDIA网络生态的第一步,而不是最后一步。
AWS正在形成一个分层的网络架构:EFA负责多租户环境下的通用scale-out通信,NeuronLink服务于Trainium3的scale-up互联,而NVIDIA的网络技术(当前的Spectrum-X、未来的NVLink Fusion)则分别为NVIDIA GPU集群和Trainium4提供高性能互联。这不是三选一,而是各司其职,但是复杂性则不言而喻。不可回避的事实是,NVIDIA的网络技术在这个架构中扮演的角色越来越重。
Groq芯片:推理战争的新变量
这笔交易中另一个引人注目的元素是NVIDIA的Groq芯片。
Groq原本是一家独立AI芯片公司,由前谷歌TPU架构师Jonathan Ross创立,以超快推理速度闻名。2025年底,NVIDIA以200亿美元签下非独占技术授权协议,并招揽了Groq大部分硬件和软件团队。2026年3月,NVIDIA正式发布了Groq 3 LPX推理加速器。
这款芯片的出现意味着NVIDIA正在构建一个"训练用GPU + 推理用Groq LPU"的双芯片战略。Ian Buck的那句"七颗芯片"论述暗示,NVIDIA认为未来的AI基础设施不再是GPU包打天下,而是一个异构的计算矩阵,不同类型的芯片各司其职。
一个有趣的战略对比是,NVIDIA的方向是"异构化",用七种不同芯片各司其职,训练归GPU,推理归Groq,网络归Spectrum。而AWS恰好走了相反的路:放弃了曾经独立的Inferentia推理芯片产品线,把训练和推理统一收归Trainium一颗芯片。一个做加法,一个做减法。
但AWS也并非只有一张牌。2026年3月,AWS宣布与Cerebras Systems达成合作,将Cerebras的推理芯片集成到运行Trainium的服务器上,承诺"超强低延迟AI性能"。这意味着AWS在保持Trainium统一性的同时,也在推理层面引入了外部盟友。
NVIDIA的逻辑是通过专用化榨取每个环节的极致性能。AWS的逻辑是通过统一化降低软件栈的复杂度和客户的认知负担,同时在推理层面保持灵活的合作策略。
谁对谁错?现在下结论为时过早。但有一点可以确定:推理市场的体量远大于训练(业内估算推理占AI计算总量的70%以上),这意味着Trainium能否在推理侧证明自己,和它在训练侧的表现同样重要。而TechCrunch的报道已经给出了部分答案:Trainium2目前承担着Amazon Bedrock服务的大部分推理流量。这不是期许,而是正在发生的事实。只是Trainium 似乎不是每个人都能接受的选择。
这笔交易的真正买家是谁?
要理解百万GPU订单,有一个关键问题必须回答:这一百万颗GPU到底是谁在用?
答案可能出乎很多人的意料:大概率不都是给Anthropic的。
Amazon自2023年底以来累计向Anthropic投资80亿美元。到2026年2月,这笔投资的账面价值已飙升至606亿美元,增长了七倍,成为Amazon有史以来最赚钱的战略投资之一。2025年的可转换票据转换为Amazon贡献了约56亿美元的确认收益,第三季度又录入72亿美元的估值上调。
Anthropic正在以610亿(2025年3月)→1830亿(2025年9月)→据报道冲击3500亿美元的速度攀升估值,并可能在2026年IPO。
但比财务回报更重要的是产业绑定。Anthropic已经承诺采购100万颗Trainium芯片,将这家最具影响力的AI实验室之一牢牢绑定在AWS的自研芯片生态上。Anthropic的Claude已经运行在超过100万颗Trainium2芯片上,AWS自己的Bedrock服务也是Trainium的重度用户。这些工作负载不需要NVIDIA GPU,它们已经在Trainium上跑得很好了。
百万GPU订单的真正驱动力,或许是2026年2月AWS与OpenAI签下的500亿美元投资协议。作为这笔交易的一部分,AWS承诺向OpenAI提供2吉瓦的Trainium算力。但OpenAI的模型和工作流程高度依赖NVIDIA CUDA生态,短期内不可能全部迁移到Trainium。百万颗NVIDIA GPU,正是为OpenAI的过渡期准备的。
这构成了一个精妙的双层客户策略:Anthropic已经是Trainium的"铁杆用户",承诺了100万颗芯片的采购,证明了自研芯片在前沿模型上的可行性;OpenAI则是需要用NVIDIA GPU先接住、然后逐步引导向Trainium迁移的新客户。两条路线服务于不同的客户成熟度。
Amazon在这两个AI巨头身上的投资策略截然不同。对Anthropic是80亿美元的股权投资(现在账面回报七倍),靠可转换票据在Anthropic每一轮融资时自动获得新股,是一笔越滚越大的金融赌注。对OpenAI则是500亿美元的基础设施投资,用算力换取独家合作关系。一个赚资本增值,一个赚平台锁定,两手都在下注,筹码不可谓不大。
此外,AWS作为OpenAI新AI智能体产品Frontier的独家提供商,GPU的供给能力直接关系到这一战略合作的成败。如果AWS无法提供充足的NVIDIA GPU资源,OpenAI完全可以把更多工作负载分配到Azure(微软云)或Google Cloud。实际上,微软已经就OpenAI与Amazon的协议是否违反其自身与OpenAI的合作条款提出质疑。
真正的棋局:Trainium4与NVLink Fusion
如果说百万GPU订单是当前的战术动作,那么Trainium4的路线图才揭示了AWS与NVIDIA关系的真实走向。而这个走向,比大多数人预想的更加出人意料。
2025年12月的re:Invent大会上,AWS和NVIDIA联合宣布了一项跨代合作:Trainium4将全面接入NVIDIA的NVLink Fusion平台。
NVLink Fusion不是一个简单的互联协议授权。它是NVIDIA推出的一套完整的机架级AI基础设施方案,专门为超大规模云厂商的自研芯片设计。它允许第三方ASIC通过第六代NVLink交换机实现72颗芯片的全互联,每颗芯片3.6 TB/s带宽,整个域的总带宽达到260 TB/s。
更关键的是,NVLink Fusion不只是互联,它还包括NVIDIA的OCP MGX机架架构、Vera CPU、共封装光学交换机、ConnectX SuperNIC智能网卡、BlueField DPU,以及Mission Control管理软件。
这意味着,Trainium4的"自研"部分仅仅是计算芯片本身,而它运行的整个基础设施平台,从机架到互联到网络到管理软件,都是NVIDIA的产品组合。
这与SemiAnalysis早前披露的路线图形成了有趣的对照。SemiAnalysis提到Trainium4同时有UALink和NVLink两条设计路径。NVLink Fusion的官方发布证实了NVLink路径不仅是真实的,而且走得比任何人预想的都更深。AWS不是简单地在芯片里集成一个NVLink接口,而是把整颗芯片嵌入了NVIDIA的系统平台。
这也意味着一个微妙但重要的转折:Trainium3上耗费大量心血打造的NeuronLink自研互联,在Trainium4上被NVLink Fusion取代了。那套精心设计的三代交换机升级路线、那些通过供应链warrant绑定的PCIe交换芯片供应商,在Trainium4的架构中将不再是核心角色。
NeuronLink不是失败了,它完成了自己的历史使命:为Trainium3提供一个可以快速上市的互联方案,同时为AWS争取到与NVIDIA谈判NVLink Fusion合作条件的筹码和时间。但从工程投入的角度看,NeuronLink更像是一座临时的便桥,而不是一条大路。
规模变化同样值得关注。Trainium3液冷版可以组成144芯片的全互联域,而NVLink Fusion支持的是72芯片全互联。数字上看似减半,但每颗芯片的互联带宽从1.2 TB/s跃升至3.6 TB/s,总域带宽达到260 TB/s。对于大多数前沿模型训练而言,更高的单芯片带宽意味着更少的通信瓶颈,72颗高带宽芯片的实际性能可能优于144颗低带宽芯片。不过,对于那些极度依赖all-to-all通信的超大规模MoE模型,芯片数量的减少是否会成为瓶颈,仍有待实际部署后验证。
但这也引出了一个尖锐的问题:如果Trainium4运行在NVIDIA的平台上,那它到底算"自研"还是"半自研"?
AWS从中获得的好处很直接:大幅缩短开发周期、降低系统设计风险、获得经过验证的互联性能。NVIDIA的官方博客直言不讳地写道,NVLink Fusion能帮助云厂商"消除独立开发scale-up网络方案的需要","最大限度降低供应商生态的复杂性"。
NVIDIA从中获得的好处同样巨大:即使AWS用自研芯片替代了NVIDIA GPU,NVIDIA依然通过NVLink交换机、网卡、DPU和机架平台获取丰厚的收入。芯片可以换,但基础设施平台的粘性远高于单颗芯片。这是NVIDIA的终极商业模式升级:从卖芯片到卖平台。即便客户不用我的GPU,也要用我的一切其它的东西。
百万GPU订单和NVLink Fusion合作放在一起看,画面就完整了:短期内,AWS买NVIDIA的GPU和网络;长期内,AWS的自研芯片仍然运行在NVIDIA的平台上。无论哪条路线胜出,NVIDIA都能从中获利。
AWS当然看得到这一点。它之所以接受这个格局,是因为另一个算盘:如果Trainium4在NVIDIA平台上成功了,AWS就拥有了一颗成本由自己控制的计算芯片,即使平台费用要付给NVIDIA,总体TCO仍然优于全部购买NVIDIA GPU。计算芯片是数据中心成本中占比最大的部分,只要在这一层实现自主,AWS就能在定价上获得结构性优势。NVIDIA赚平台的钱,AWS赚计算的差价,双方各取所需。这是一种理性的利益切割,而非一方对另一方的屈服。
但问题在于:这种"各取所需"的均衡能维持多久?当NVIDIA的平台收入逐渐成为AWS不可或缺的基础设施成本时,谈判桌上的力量对比会不会悄然地改变?
一个比"投降"复杂得多的故事
让我们把视角拉远来看这件事。
最偷懒的解读是:AWS买了一百万颗NVIDIA GPU,说明自研芯片失败了。这个叙事简单、有冲击力,但它忽略了太多的事实:140万颗已部署的Trainium芯片、承载Claude的百万芯片集群、数十亿美元的营收、80亿美元投资七倍增值到606亿的财务回报,以及OpenAI 500亿美元合作中对Trainium产能的承诺。
更接近现实的图景可能是这样的:
AWS正在同时运行三场不同时间尺度的战争。
短期(2025-2026):用NVIDIA GPU接住OpenAI等CUDA生态深度绑定的新客户,同时持续扩大Trainium2/3的产能来满足Anthropic和Bedrock的爆发式需求。这不是在两条路线之间犹豫,而是两条路线都在全速推进。
中期(2026-2028):Trainium3全面铺开后,用50%的成本优势和MoE架构优化争夺增量工作负载。144芯片的NeuronLink域、开源的Neuron SDK、比NVIDIA更灵活的机架设计(风冷/液冷双版本、可现场升级的交换架构),这些都是差异化的武器。SemiAnalysis对Trainium3的评价是,它为黄仁勋"yet another front"(又开辟了一条战线),与谷歌TPUv7和AMD MI450X一起形成多线作战的压力。
长期(2028+):Trainium4接入NVLink Fusion平台,获得NVIDIA级别的互联性能,同时保留自研计算芯片的成本和架构灵活性。但这也意味着AWS在互联和机架层面对NVIDIA的依赖将进一步加深,而非减弱。
这个三层战略的核心逻辑是:不在任何单一时间点与NVIDIA的全面对抗,而是在计算芯片层面持续积累自研能力,在互联和平台层面则选择与NVIDIA合作而非对抗。
百万GPU订单不是投降书,它是AWS为接住爆发式增长的AI算力需求而必须支付的扩容账单。但"自研芯片帝国"这个说法本身可能需要做出修正。Trainium4与NVLink Fusion的合作模式表明,AWS追求的不是全面独立于NVIDIA,而是在最核心的计算层实现自主可控,其余部分则务实地选择最优方案。
但我们必须诚实地面对一个问题:即便Trainium在计算层已经成功,NVLink Fusion的平台依赖是否会成为新的风险?
成功之后的隐忧
上面描绘的图景比一年前乐观得多。Trainium已经不再是一个需要证明自己的实验品,它是一台正在全速运转的印钞机。但成功本身也带来了新的战略风险。
第一个隐忧:平台依赖的不可逆性。Trainium4选择接入NVLink Fusion,意味着其机架设计、互联协议和管理软件都将深度绑定NVIDIA生态。一旦走上这条路,回头的成本极高。从Trainium3的全自研互联到Trainium4的NVLink Fusion,"自研"的边界在一代产品之间就大幅收缩了。如果这种收缩在Trainium5、Trainium6上继续下去,AWS最终可能只剩下计算Die这一个自研环节,其余全部依赖NVIDIA。那时候,"自研芯片"更像是NVIDIA平台上的一个可替换模块,而非真正意义上的独立竞争力。
第二个隐忧:供给瓶颈的悖论。King坦承"客户群扩张速度超过了产能交付速度"。Trainium的成功反而暴露了产能瓶颈 — 如果AWS无法快速扩大自研芯片的产量,它就不得不持续购买NVIDIA GPU来填补缺口。这意味着每一笔NVIDIA订单都在强化NVIDIA的营收和谈判地位,而Trainium的成本优势要到产能完全跟上需求之后才能充分兑现。
第三个隐忧:NVIDIA不会站着等。SemiAnalysis评价Trainium3为黄仁勋开辟了"yet another front",但这个评价的另一面是:NVIDIA从来不缺乏在多线作战中获胜的能力。Blackwell之后是Rubin,Rubin之后还有更新的架构。NVIDIA的研发投入是AWS芯片团队的数倍,迭代速度之快有时甚至让自己的客户措手不及。Trainium在成本上可能有优势,但在绝对性能上能否持续跟上NVIDIA的节奏,是一个没有确定答案的问题。
第四个隐忧:双重生态的维护成本。AWS现在需要同时维护两套完整的AI基础设施 — NVIDIA GPU集群和Trainium集群。两套不同的软件栈、两套不同的网络方案、两套不同的运维流程。这种双轨并行的运营复杂度,本身就是一笔巨大的隐性成本。King说"Bedrock可能有一天会像EC2一样大",但要达到那个规模,AWS需要在两套基础设施之间做到无缝调度,这远比单一平台的运营困难得多。
而在AI基础设施每六个月就更新一代的节奏下,战略上的摇摆比战略上的错误更危险。谷歌走TPU路线十年,尽管中间经历了无数质疑,但从未在战略层面动摇,最终用Gemini证明了自研芯片的可行性。NVIDIA走CUDA全栈路线二十年,中间GPU多次被唱衰,但始终坚持计算与软件一体化的方向。这两家公司的成功有一个共同点:长期战略的一致性。
公允地说,AWS目前的方向并不是在自研和外购之间反复横跳。"计算层自研、平台层合作"是一个清晰的分工逻辑,而140万颗已部署的芯片和数十亿美元的营收证明了执行力。但Trainium4拥抱NVLink Fusion的决定提醒我们:成功不等于独立。AWS在计算芯片层面越成功,NVIDIA在平台层面的不可替代性就越高。
这才是百万GPU订单背后最值得深思的信号:它不是自研失败的标志,而是一种新型共生关系的起点。在这种关系中,AWS掌控计算,NVIDIA掌控平台,双方共同分割AI基础设施的利润池。谁获得更大的份额,取决于接下来几年的博弈。
答案可能就在AWS的下一步行动中。2026年的关键观察指标是:Trainium3的液冷版能否按时大规模部署、OpenAI在Trainium上的工作负载占比是否稳步上升、Neuron SDK的开源社区是否出现实质性的外部贡献。如果这些指标持续向好,AWS就有底气在Trainium4的NVLink Fusion谈判中争取更有利的条款。如果Trainium3产能爬坡不顺、或者OpenAI迟迟无法从NVIDIA GPU迁移,那么NVIDIA在平台层面的议价权只会越来越强。
真正的问题不在于AWS是否在买NVIDIA的芯片,而在于五年后,AWS的数据中心里跑的到底是谁的芯片、用的是谁的网络、受制于谁的生态。这场博弈的结局,远未写完。但与一年前相比,AWS手中的牌已经好了很多。140万颗已部署的芯片、Anthropic的百万芯片采购承诺、80亿美元投资七倍增值到606亿美元的财务回报,这些数字不说谎。唯一欠缺的可能就是股价了。
2026 年 3 月 25 日
参考资料
- Yahoo Finance, 2025年3月; NVIDIA确认百万GPU交易的原始报道
- Seeking Alpha, 2025年3月; Amazon如何通过NVIDIA交易解决AI客户需求的分析
- Tae Kim/Substack, 2025年3月; Ian Buck详述七芯片战略和AWS合作细节
- Inspirepreneur Magazine, 2025年3月; 交易规模和时间线报道
- Research Newspaper, 2025年3月; 七种芯片类型和Groq、Spectrum-X细节
- SemiAnalysis, 2025年; Trainium3技术深度分析,包括N3P制程、NeuronLink架构、机架设计、供应链策略及Trainium4路线图
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
