高盛重磅报告:Google/博通TPU v7推理成本暴降70% 与英伟达GB200 NVL72基本持平 AI芯片竞争转向“谁算得更便宜”

导读目录
AI芯片竞争评价标准从算力转向成本效率
AI产业早期,训练阶段的峰值算力几乎决定一切,谁能更快训出更大模型,谁就掌握技术制高点。然而,随着模型逐步大规模部署,推理负载已远超训练,成为长期现金流的主要来源。高盛构建的“推理成本曲线”综合考虑折旧、能耗、系统利用率、互联效率等多维度因素,结果显示:在高频调用场景下,单位百万token的真实经济成本,已成为比单纯FLOPS更具决定性的指标。TPU v7的成本跃迁,正是这一评价体系切换的典型体现,标志着AI芯片竞争进入“性价比为王”的新阶段。
TPU v7推理成本暴降70%核心驱动分析
从TPU v6到v7,单位token推理成本下降约70%,使Google/博通方案在成本维度与英伟达GB200 NVL72基本持平。高盛强调,这一降幅并非单一技术突破,而是系统工程能力的集中释放,包括更高带宽HBM内存、更低延迟网络互联、先进封装(如台积电CoWoS)、机架级密度与能效优化等多环节协同。TPU在谷歌内部Gemini模型训练与推理中占比持续提升,同时外部客户加速导入,最典型案例是Anthropic向博通下达约210亿美元定制TPU订单,预计2026年中开始交付。
英伟达地位仍稳固但面临新压力
高盛明确表示,TPU成本追平并不意味着英伟达地位被动摇。公司仍牢牢掌握“上市时间”优势:在TPU v7刚刚追平GB200之际,英伟达已推进至GB300 NVL72,并计划2026年下半年交付VR200 NVL144。CUDA生态的深度锁定、开发者惯性以及持续高强度研发投入,构成英伟达难以撼动的护城河。但报告也提醒,当推理成为主要变现环节,英伟达估值逻辑将持续接受“推理成本持续下行”的压力测试,市场对GPU溢价的容忍度或逐步收窄。
AMD与亚马逊Trainium当前追赶现状对比
| 厂商/方案 | 当前推理成本相对水平 | 代际降本幅度 | 主要优势/短板 |
|---|---|---|---|
| 英伟达 GB200 NVL72 | 基准(1x) | — | 生态最强、上市最早、训练主导 |
| Google/博通 TPU v7 | 基本持平,部分场景略优 | 较v6下降约70% | 推理性价比突出、系统优化领先 |
| AMD MI系列 | 明显高于基准 | 有限 | 后发机架方案有潜力,2026年末MI455X Helios或降70% |
| 亚马逊 Trainium | 明显高于基准 | 有限 | 云内自用为主,外部渗透有限 |
AMD与Trainium在成本效率上仍落后,但AMD机架级后发方案值得长期跟踪。
系统级优化而非单点突破决定未来降本
高盛认为,随着单芯片算力逼近物理极限,未来推理成本继续下降的空间,将越来越依赖“计算相邻技术”的进步:网络互联带宽与延迟、HBM与存储集成、先进封装、液冷与机架密度等。谷歌在这些领域的长期积累,使TPU在推理场景中展现出显著经济性优势。这一系统工程思维,也将成为未来ASIC阵营挑战GPU霸主地位的最重要路径。
高盛对英伟达、博通、AMD等投资评级与预期
高盛维持对英伟达和博通的“买入”评级,认为两者最直接绑定AI资本开支中最具可持续的部分。博通2026财年每股收益预期上调至10.87美元,较市场一致预期高约6%,AI网络与定制计算长期盈利能力仍被低估。英伟达生态护城河稳固,但需警惕推理成本下行对估值的影响。AMD后发机架方案存在潜在机会,建议持续跟踪2026年末Helios方案表现。
编辑总结
高盛报告揭示AI芯片竞争正从“峰值算力竞赛”转向“全生命周期成本效率竞赛”。TPU v7推理成本暴降70%并追平英伟达GB200,标志定制ASIC在规模化推理负载中加速渗透。英伟达凭借生态、迭代速度与训练市场主导地位仍占据核心,但推理阶段成本压力已成为其最大变量。未来产业格局或呈现“GPU主训+ASIC主推”的分工趋势,博通等ASIC玩家长期受益明显,而整个行业盈利中枢将取决于系统级降本能力而非单一芯片突破。
常见问题解答
1. 高盛报告为什么强调推理成本而非训练算力?这对AI产业意味着什么?
早期AI竞争以训练为主,算力峰值决定模型规模与技术领先。但当前大模型已进入商业化部署阶段,推理调用量远超训练,成为主要现金流消耗环节。高盛通过“推理成本曲线”量化折旧、能耗、利用率等真实经济成本,指出单位token成本已成为决定商业可行性的核心指标。当“每一个token都要算回报”成为现实,成本效率将取代单纯算力,成为重塑产业格局的关键力量。2. TPU v7推理成本下降70%具体是怎么实现的?是技术奇迹吗?
并非单一技术奇迹,而是系统级工程优化的集中体现。高盛指出,TPU v7在算力密度、网络互联延迟、HBM带宽、先进封装、机架能效等多维度协同进步,实现成本大幅跃迁。谷歌长期自研+博通定制能力,使其在推理场景的整体经济性显著优于单纯堆算力的方案。这也说明,芯片竞争已进入“系统胜于单点”的新阶段。3. 英伟达地位是否真的会被TPU动摇?高盛如何看待英伟达护城河?
高盛明确认为英伟达地位并未被动摇。公司仍掌握最快上市节奏(已推进至GB300,计划2026年下半年VR200)、最成熟CUDA生态以及训练市场绝对主导地位,这些构成坚实护城河。但报告也提醒,随着推理占比持续提升,英伟达必须在成本效率上持续证明其溢价合理性,否则估值逻辑将面临压力。总体判断是:英伟达仍是核心受益者,但竞争环境已显著复杂化。4. 博通在AI芯片领域的受益逻辑是什么?为什么高盛大幅上调其盈利预期?
博通是TPU定制芯片与AI网络交换机双龙头,直接绑定谷歌、Anthropic等大客户订单(Anthropic约210亿美元)。高盛上调2026财年每股收益至10.87美元(高于市场6%),认为市场低估了其在AI网络、定制ASIC与系统互联领域的长期盈利能力。博通不直接与英伟达正面竞争GPU,而是专注“计算相邻”高毛利环节,成长路径更可持续。5. AMD和亚马逊Trainium未来有机会挑战英伟达与TPU吗?关键看点是什么?
当前AMD与Trainium推理成本仍明显高于基准,代际降本幅度有限,对主流市场冲击较小。但AMD机架级方案存在后发优势,高盛预计基于MI455X的Helios机架在2026年末或实现约70%推理成本下降,值得重点跟踪。亚马逊Trainium更多服务云内自用,外部渗透力较弱。未来谁能在系统级优化与规模化部署上实现突破,谁就有望在推理市场分得更大份额,但短期内英伟达与TPU仍占据主导。
暂无相关记录





