Skip to content
AI-Daily-Builder

2026-06-18 views

实体AI算力基础设施 — Tesla Dojo、Google TPU、NVIDIA H100在自动驾驶训练军备竞赛中的角力

Tesla押注Dojo自研芯片目标每FLOP 1美元,Waymo继承Google TPU规模优势,两者在训练迭代速度上均大幅领先依赖NVIDIA的竞争对手。

实体AI基准测评系列第130篇 — 实体AI算力基础设施:Tesla Dojo vs Google TPU vs NVIDIA H100/H200,FSD、Waymo神经网络与Optimus策略学习背后的AI训练军备竞赛

驱动FSD、Waymo感知系统与Optimus策略学习的AI模型,均在大规模算力集群上完成训练。算力基础设施决定了各公司的迭代速度——训练新模型、执行消融实验、将改进部署至车队的速度。Tesla押注自研芯片(Dojo D1芯片加ExaPOD集群)。Waymo继承Google世界级的TPU基础设施。其余所有自动驾驶与机器人公司则租用NVIDIA H100/H200集群。本文将算力基础设施作为实体AI基准测评的核心维度加以呈现。

标记”(估计)“的数据来自公开市场信息、公司披露及分析师估算,而非经核实的原始数据。


第一节 — Tesla Dojo:自研芯片的豪赌

Tesla的Dojo计划是自动驾驶行业最雄心勃勃的自研芯片押注。Tesla不向云端供应商租用NVIDIA算力,而是自行设计训练芯片(Dojo D1),并将其组装成专用于FSD训练、自动标注及Optimus策略学习的ExaPOD集群。

指标Dojo D1芯片Dojo ExaPOD(训练集群)现状(2026年中)
架构台积电7nm自研设计;362 TFLOPS BF16;10 TB/s片上带宽(Tesla已披露)每个训练模块120颗Dojo D1;每个ExaPOD机柜3,000颗芯片自研设计——无GPU厂商依赖
目标算力每ExaPOD集群1 ExaFLOP(Tesla披露之目标)多个ExaPOD = 多个ExaFLOP依Tesla AI Day披露,约达1 ExaFLOP(估计)
训练用途FSD神经网络(图像到驾驶策略);Occupancy Network;Auto-Labeling流水线完整FSD训练流程:从600万辆以上车队的原始图像生成更新的FSD模型FSD v12/v13/v14在Dojo上训练(估计)
Optimus应用Optimus策略学习(操作、导航)共享Dojo基础设施(估计)人形机器人策略比驾驶需要更多样的数据——每次改进所需算力更高(估计)Optimus早期训练在Dojo上进行(估计);规模持续扩大
相较NVIDIA的成本Musk引用每训练FLOP 1美元目标,vs租用NVIDIA H100集群约3-4美元(估计)若达成:每次训练运行相较云端GPU具约3-4倍成本优势优势取决于Dojo使用率与良率
风险自研芯片良率风险;台积电7nm现已成熟,但Dojo架构为专有技术;若芯片设计有缺陷,修复速度慢单一供应商依赖自身芯片团队核心风险:NVIDIA H100集群现已可大规模获取;Dojo建设有所延误
战略价值若Dojo实现成本目标:Tesla训练FSD比任何租用算力的竞争对手都更快、更便宜训练速度 = 模型迭代速度 = 脱离辅助率改善速度Dojo押注将资本支出转化为持久的成本护城河

Dojo论点建立在一个直观的成本方程式上:若Tesla能以每FLOP 1美元完成模型训练,而不是在租用的H100集群上花费3-4美元,则每次FSD迭代的成本比竞争对手低三到四倍。在每年数百次训练运行的情况下,这一成本优势会复利累积成迭代速度优势——每美元能执行更多实验,意味着更快收敛至更优质的模型。


第二节 — Waymo与Google TPU:以母公司身份继承的基础设施优势

Waymo的算力优势是结构性的而非靠努力争取的:作为Alphabet子公司,Waymo继承了Google TPU基础设施的访问权——驱动Google搜索、YouTube推荐及Gemini训练的同款自研芯片。没有任何自动驾驶初创公司能在不投入同等资本的情况下与之匹敌。

指标Google TPU v4/v5Waymo的访问权战略意涵
架构Google自研TPU(张量处理器);v4 = 275 TFLOPS;v5p = 约460 TFLOPS(估计)Waymo是Alphabet子公司——可完全访问Google TPU集群及Google Cloud基础设施Waymo无需在算力上自行投入资本;Alphabet承担基础设施成本
集群规模Google运营全球最大规模的TPU集群之一(确切容量未披露)Waymo可按需访问Google规模的算力Waymo的算力上限即为Google的整体基础设施
仿真基础设施Google的NeRF场景重建(大规模仿真)在TPU + GPU集群上执行Waymo的仿真流水线将真实里程倍增为合成训练数据1英里真实数据 → 1,000多个仿真变体 → TPU对全部变体进行训练
对Waymo的成本Alphabet内部成本分摊(未披露);Waymo按内部转让价格付费实质上是Alphabet的补贴竞争护城河:没有自动驾驶初创公司能在不投入同等资本的情况下复制Google的算力
风险依赖Alphabet:若Waymo被分拆或出售,TPU访问权可能改变Alphabet已展现持续投资Waymo的意愿在Waymo仍为子公司时风险低;若独立IPO则风险中等
训练重点Waymo的MultiPath++(轨迹预测)、OccupancyFlow(环境模型)、感知栈Waymo所有主要神经网络均在Google TPU基础设施上训练可能涉及Google Brain / DeepMind合作(估计)

仿真倍增器是Waymo最被低估的算力放大器。一英里真实世界的驾驶数据可被转换为数千个仿真变体——不同光线条件、不同行人行为、不同交通模式、传感器噪声变化。每个仿真变体都是一个新的训练样本。当这些样本由Google规模的TPU基础设施生成并处理时,Waymo的有效训练数据量远超其车队的实际里程数。


第三节 — NVIDIA:所有其他自动驾驶公司依赖的现有供应商

对于任何既非Tesla也非Waymo的自动驾驶或机器人公司而言,NVIDIA是唯一可行的大规模算力路径。这造成了一种结构性依赖,将训练迭代速度限制在公司所能负担或谈判获取的H100/H200容量范围内。

指标NVIDIA H100NVIDIA H200NVIDIA DRIVE Orin(车载)
架构Hopper;3.9 PetaFLOPS BF16(已披露)Hopper + HBM3e;约3.9 PF BF16 + 更高内存带宽每芯片254 TOPS;汽车安全等级
云端可用性AWS、Azure、GCP、CoreWeave、Lambda Labs——任何自动驾驶公司均可获取H200可通过与H100相同的云端供应商获取销售给Tier 1供应商和自动驾驶公司
成本云端每小时约2-4美元(估计,因供应商与现货定价而异)云端每小时约3-5美元(估计)每芯片约750美元以上(估计);用于Zoox、Aurora等自动驾驶车
使用H100/H200训练的自动驾驶公司Aurora、Zoox、Mobileye、Wayve及大多数非Waymo/Tesla自动驾驶公司均租用H100/H200时间
NVIDIA DRIVE平台独立产品:DRIVE Orin(254 TOPS)+ DRIVE Thor(2,000 TOPS,已宣布);车内自动驾驶感知/规划AI
战略角色若无Dojo或Google TPU,自动驾驶训练的默认基础设施H200 = 当前前沿;H100 = 可获取且广泛使用NVIDIA车载算力主导非Tesla/非Waymo自动驾驶市场
自动驾驶公司的风险集中风险:NVIDIA定价能力;2023年H100供应限制导致训练延误除Tesla(HW4)和Waymo(自研TPU)外,所有竞争对手的车载算力均依赖NVIDIA

NVIDIA依赖形成了一种随时间复利加剧的战略不对称性。Aurora、Zoox、Mobileye和Wayve均在租用的H100集群上执行训练工作负载。当NVIDIA推出H200或下一代Blackwell芯片时,这些公司都会同等受益——没有人能从硬件访问中获得优势。训练算力的底线对所有人同步提升,但上限保持不变:即云端市场按市价愿意出售给你的容量。


第四节 — 算力作为扩张倍增器:训练迭代速度

算力基础设施差异的实际后果是训练迭代速度——每月每家公司能执行多少个模型改进周期。迭代次数越多,意味着脱离辅助率改善越快、长尾边缘案例覆盖越快、对新驾驶环境的适应越快。

公司训练集群估计每月训练次数模型迭代速度扩张意涵
TeslaDojo ExaPOD(1+ ExaFLOP估计)高——专用集群服务FSD + Optimus若Dojo达到规格:迭代速度最快(估计)脱离辅助率改善速度与训练迭代速度成正比
WaymoGoogle TPU(Alphabet规模)非常高——Google基础设施;不与商业客户竞争资源非常快;Google的算力规模无可匹敌Waymo的仿真到训练流水线倍增有效算力
Aurora租用NVIDIA H100/H200中等——受预算限制;优先安全验证中等——依赖资本募资限制制约训练迭代
ZooxAmazon云端(EC2 + 租用H100)——Amazon拥有Zoox高——Amazon基础设施快——Amazon云端访问类似Waymo的Google优势被低估的优势:Zoox的Amazon所有权 = 按需云端算力
MobileyeIntel算力 + 租用H100中等中等EyeQ芯片团队具备硅基专业知识;训练算力聚焦度较低
Figure AI租用H100;NVIDIA合作伙伴关系中等中等OpenAI语言模型集成 = 语言组件的独特算力访问

Zoox在此表中值得特别关注,因其是继Tesla和Waymo之后,最被低估的算力优势自动驾驶公司。Amazon对Zoox的所有权赋予其按内部转让价格访问AWS基础设施的能力——一种本质上与Waymo的TPU访问平行的结构性优势。这一优势尚未转化为可见的商业牵引力,但这意味着Zoox的训练迭代上限并不受限于与Aurora相同的预算约束。


第五节 — 算力基础设施基准测评计分卡

维度Tesla(Dojo)Waymo(Google TPU)依赖NVIDIA的公司优势方
可用原始算力约1+ ExaFLOP估计(持续增长)Google规模(未披露;实际上无上限)受预算和H100可用性限制Waymo(Alphabet支撑)
每FLOP成本(估计)目标每FLOP 1美元(若Dojo达成)近乎零(内部转让)云端每FLOP 2-4美元(估计)Waymo或Tesla(取决于Dojo良率)
自研芯片优势是——Dojo D1;D2开发中是——Google TPU v4/v5否——依赖NVIDIATesla + Waymo均具备自研芯片护城河
迭代速度高(专用集群)非常高(Google规模 + 仿真倍增器)中等(受预算限制)Waymo略胜(仿真倍增器复利效应)
车载算力HW4 = 288 TOPS(4颗台积电7nm自研芯片);无NVIDIA依赖Waymo车载自研TPUNVIDIA DRIVE Orin(约750美元以上估计)Tesla(垂直整合;无第三方成本或交期)
Dojo vs TPU评判Dojo是一项数十亿美元的押注,押注自研芯片能打造持久成本护城河Google TPU已被大规模验证;Waymo继承其成果两者在规模上均优于租用H100;Waymo今日的访问规模更大

算力基础设施计分卡揭示了一个两层架构的实体AI产业。第一层由Tesla和Waymo组成——两者均拥有用于训练和推理的自研芯片,均拥有可独立于云端市场定价扩展的专用集群,且车载算力均不依赖NVIDIA。第二层由所有其他自动驾驶和机器人公司组成——在训练和车载推理上均结构性依赖NVIDIA,训练迭代速度受云端预算限制而非基础设施上限。

长期影响是一个随时间复利加剧的训练迭代差距。若Tesla每月能执行Dojo让其成本为Aurora三分之一的FSD训练实验,而Waymo因Google基础设施无容量上限而能执行五倍的实验,则第一层与第二层之间的神经网络质量差距将逐月扩大——与研究团队的素质无关。算力基础设施不是实体AI领导地位的充分条件,但它日益成为必要条件。

注意: 所有标记”(估计)“的数据均来自2026年中的公开市场信息、公司披露、分析师估算及行业报告。本文不构成投资建议。


来源

标签

请喝咖啡