2026-06-18 — views

实体AI算力基础设施 — Tesla Dojo、Google TPU、NVIDIA H100在自动驾驶训练军备竞赛中的角力

Tesla押注Dojo自研芯片目标每FLOP 1美元，Waymo继承Google TPU规模优势，两者在训练迭代速度上均大幅领先依赖NVIDIA的竞争对手。

实体AI基准测评系列第130篇 — 实体AI算力基础设施：Tesla Dojo vs Google TPU vs NVIDIA H100/H200，FSD、Waymo神经网络与Optimus策略学习背后的AI训练军备竞赛

驱动FSD、Waymo感知系统与Optimus策略学习的AI模型，均在大规模算力集群上完成训练。算力基础设施决定了各公司的迭代速度——训练新模型、执行消融实验、将改进部署至车队的速度。Tesla押注自研芯片（Dojo D1芯片加ExaPOD集群）。Waymo继承Google世界级的TPU基础设施。其余所有自动驾驶与机器人公司则租用NVIDIA H100/H200集群。本文将算力基础设施作为实体AI基准测评的核心维度加以呈现。

标记”（估计）“的数据来自公开市场信息、公司披露及分析师估算，而非经核实的原始数据。

第一节 — Tesla Dojo：自研芯片的豪赌

Tesla的Dojo计划是自动驾驶行业最雄心勃勃的自研芯片押注。Tesla不向云端供应商租用NVIDIA算力，而是自行设计训练芯片（Dojo D1），并将其组装成专用于FSD训练、自动标注及Optimus策略学习的ExaPOD集群。

指标	Dojo D1芯片	Dojo ExaPOD（训练集群）	现状（2026年中）
架构	台积电7nm自研设计；362 TFLOPS BF16；10 TB/s片上带宽（Tesla已披露）	每个训练模块120颗Dojo D1；每个ExaPOD机柜3,000颗芯片	自研设计——无GPU厂商依赖
目标算力	每ExaPOD集群1 ExaFLOP（Tesla披露之目标）	多个ExaPOD = 多个ExaFLOP	依Tesla AI Day披露，约达1 ExaFLOP（估计）
训练用途	FSD神经网络（图像到驾驶策略）；Occupancy Network；Auto-Labeling流水线	完整FSD训练流程：从600万辆以上车队的原始图像生成更新的FSD模型	FSD v12/v13/v14在Dojo上训练（估计）
Optimus应用	Optimus策略学习（操作、导航）共享Dojo基础设施（估计）	人形机器人策略比驾驶需要更多样的数据——每次改进所需算力更高（估计）	Optimus早期训练在Dojo上进行（估计）；规模持续扩大
相较NVIDIA的成本	Musk引用每训练FLOP 1美元目标，vs租用NVIDIA H100集群约3-4美元（估计）	若达成：每次训练运行相较云端GPU具约3-4倍成本优势	优势取决于Dojo使用率与良率
风险	自研芯片良率风险；台积电7nm现已成熟，但Dojo架构为专有技术；若芯片设计有缺陷，修复速度慢	单一供应商依赖自身芯片团队	核心风险：NVIDIA H100集群现已可大规模获取；Dojo建设有所延误
战略价值	若Dojo实现成本目标：Tesla训练FSD比任何租用算力的竞争对手都更快、更便宜	训练速度 = 模型迭代速度 = 脱离辅助率改善速度	Dojo押注将资本支出转化为持久的成本护城河

Dojo论点建立在一个直观的成本方程式上：若Tesla能以每FLOP 1美元完成模型训练，而不是在租用的H100集群上花费3-4美元，则每次FSD迭代的成本比竞争对手低三到四倍。在每年数百次训练运行的情况下，这一成本优势会复利累积成迭代速度优势——每美元能执行更多实验，意味着更快收敛至更优质的模型。

第二节 — Waymo与Google TPU：以母公司身份继承的基础设施优势

Waymo的算力优势是结构性的而非靠努力争取的：作为Alphabet子公司，Waymo继承了Google TPU基础设施的访问权——驱动Google搜索、YouTube推荐及Gemini训练的同款自研芯片。没有任何自动驾驶初创公司能在不投入同等资本的情况下与之匹敌。

指标	Google TPU v4/v5	Waymo的访问权	战略意涵
架构	Google自研TPU（张量处理器）；v4 = 275 TFLOPS；v5p = 约460 TFLOPS（估计）	Waymo是Alphabet子公司——可完全访问Google TPU集群及Google Cloud基础设施	Waymo无需在算力上自行投入资本；Alphabet承担基础设施成本
集群规模	Google运营全球最大规模的TPU集群之一（确切容量未披露）	Waymo可按需访问Google规模的算力	Waymo的算力上限即为Google的整体基础设施
仿真基础设施	Google的NeRF场景重建（大规模仿真）在TPU + GPU集群上执行	Waymo的仿真流水线将真实里程倍增为合成训练数据	1英里真实数据 → 1,000多个仿真变体 → TPU对全部变体进行训练
对Waymo的成本	Alphabet内部成本分摊（未披露）；Waymo按内部转让价格付费	实质上是Alphabet的补贴	竞争护城河：没有自动驾驶初创公司能在不投入同等资本的情况下复制Google的算力
风险	依赖Alphabet：若Waymo被分拆或出售，TPU访问权可能改变	Alphabet已展现持续投资Waymo的意愿	在Waymo仍为子公司时风险低；若独立IPO则风险中等
训练重点	Waymo的MultiPath++（轨迹预测）、OccupancyFlow（环境模型）、感知栈	Waymo所有主要神经网络均在Google TPU基础设施上训练	可能涉及Google Brain / DeepMind合作（估计）

仿真倍增器是Waymo最被低估的算力放大器。一英里真实世界的驾驶数据可被转换为数千个仿真变体——不同光线条件、不同行人行为、不同交通模式、传感器噪声变化。每个仿真变体都是一个新的训练样本。当这些样本由Google规模的TPU基础设施生成并处理时，Waymo的有效训练数据量远超其车队的实际里程数。

第三节 — NVIDIA：所有其他自动驾驶公司依赖的现有供应商

对于任何既非Tesla也非Waymo的自动驾驶或机器人公司而言，NVIDIA是唯一可行的大规模算力路径。这造成了一种结构性依赖，将训练迭代速度限制在公司所能负担或谈判获取的H100/H200容量范围内。

指标	NVIDIA H100	NVIDIA H200	NVIDIA DRIVE Orin（车载）
架构	Hopper；3.9 PetaFLOPS BF16（已披露）	Hopper + HBM3e；约3.9 PF BF16 + 更高内存带宽	每芯片254 TOPS；汽车安全等级
云端可用性	AWS、Azure、GCP、CoreWeave、Lambda Labs——任何自动驾驶公司均可获取	H200可通过与H100相同的云端供应商获取	销售给Tier 1供应商和自动驾驶公司
成本	云端每小时约2-4美元（估计，因供应商与现货定价而异）	云端每小时约3-5美元（估计）	每芯片约750美元以上（估计）；用于Zoox、Aurora等自动驾驶车
使用H100/H200训练的自动驾驶公司	Aurora、Zoox、Mobileye、Wayve及大多数非Waymo/Tesla自动驾驶公司均租用H100/H200时间	—	—
NVIDIA DRIVE平台	—	—	独立产品：DRIVE Orin（254 TOPS）+ DRIVE Thor（2,000 TOPS，已宣布）；车内自动驾驶感知/规划AI
战略角色	若无Dojo或Google TPU，自动驾驶训练的默认基础设施	H200 = 当前前沿；H100 = 可获取且广泛使用	NVIDIA车载算力主导非Tesla/非Waymo自动驾驶市场
自动驾驶公司的风险	集中风险：NVIDIA定价能力；2023年H100供应限制导致训练延误	—	除Tesla（HW4）和Waymo（自研TPU）外，所有竞争对手的车载算力均依赖NVIDIA

NVIDIA依赖形成了一种随时间复利加剧的战略不对称性。Aurora、Zoox、Mobileye和Wayve均在租用的H100集群上执行训练工作负载。当NVIDIA推出H200或下一代Blackwell芯片时，这些公司都会同等受益——没有人能从硬件访问中获得优势。训练算力的底线对所有人同步提升，但上限保持不变：即云端市场按市价愿意出售给你的容量。

第四节 — 算力作为扩张倍增器：训练迭代速度

算力基础设施差异的实际后果是训练迭代速度——每月每家公司能执行多少个模型改进周期。迭代次数越多，意味着脱离辅助率改善越快、长尾边缘案例覆盖越快、对新驾驶环境的适应越快。

公司	训练集群	估计每月训练次数	模型迭代速度	扩张意涵
Tesla	Dojo ExaPOD（1+ ExaFLOP估计）	高——专用集群服务FSD + Optimus	若Dojo达到规格：迭代速度最快（估计）	脱离辅助率改善速度与训练迭代速度成正比
Waymo	Google TPU（Alphabet规模）	非常高——Google基础设施；不与商业客户竞争资源	非常快；Google的算力规模无可匹敌	Waymo的仿真到训练流水线倍增有效算力
Aurora	租用NVIDIA H100/H200	中等——受预算限制；优先安全验证	中等——依赖资本	募资限制制约训练迭代
Zoox	Amazon云端（EC2 + 租用H100）——Amazon拥有Zoox	高——Amazon基础设施	快——Amazon云端访问类似Waymo的Google优势	被低估的优势：Zoox的Amazon所有权 = 按需云端算力
Mobileye	Intel算力 + 租用H100	中等	中等	EyeQ芯片团队具备硅基专业知识；训练算力聚焦度较低
Figure AI	租用H100；NVIDIA合作伙伴关系	中等	中等	OpenAI语言模型集成 = 语言组件的独特算力访问

Zoox在此表中值得特别关注，因其是继Tesla和Waymo之后，最被低估的算力优势自动驾驶公司。Amazon对Zoox的所有权赋予其按内部转让价格访问AWS基础设施的能力——一种本质上与Waymo的TPU访问平行的结构性优势。这一优势尚未转化为可见的商业牵引力，但这意味着Zoox的训练迭代上限并不受限于与Aurora相同的预算约束。

第五节 — 算力基础设施基准测评计分卡

维度	Tesla（Dojo）	Waymo（Google TPU）	依赖NVIDIA的公司	优势方
可用原始算力	约1+ ExaFLOP估计（持续增长）	Google规模（未披露；实际上无上限）	受预算和H100可用性限制	Waymo（Alphabet支撑）
每FLOP成本（估计）	目标每FLOP 1美元（若Dojo达成）	近乎零（内部转让）	云端每FLOP 2-4美元（估计）	Waymo或Tesla（取决于Dojo良率）
自研芯片优势	是——Dojo D1；D2开发中	是——Google TPU v4/v5	否——依赖NVIDIA	Tesla + Waymo均具备自研芯片护城河
迭代速度	高（专用集群）	非常高（Google规模 + 仿真倍增器）	中等（受预算限制）	Waymo略胜（仿真倍增器复利效应）
车载算力	HW4 = 288 TOPS（4颗台积电7nm自研芯片）；无NVIDIA依赖	Waymo车载自研TPU	NVIDIA DRIVE Orin（约750美元以上估计）	Tesla（垂直整合；无第三方成本或交期）
Dojo vs TPU评判	Dojo是一项数十亿美元的押注，押注自研芯片能打造持久成本护城河	Google TPU已被大规模验证；Waymo继承其成果	—	两者在规模上均优于租用H100；Waymo今日的访问规模更大

算力基础设施计分卡揭示了一个两层架构的实体AI产业。第一层由Tesla和Waymo组成——两者均拥有用于训练和推理的自研芯片，均拥有可独立于云端市场定价扩展的专用集群，且车载算力均不依赖NVIDIA。第二层由所有其他自动驾驶和机器人公司组成——在训练和车载推理上均结构性依赖NVIDIA，训练迭代速度受云端预算限制而非基础设施上限。

长期影响是一个随时间复利加剧的训练迭代差距。若Tesla每月能执行Dojo让其成本为Aurora三分之一的FSD训练实验，而Waymo因Google基础设施无容量上限而能执行五倍的实验，则第一层与第二层之间的神经网络质量差距将逐月扩大——与研究团队的素质无关。算力基础设施不是实体AI领导地位的充分条件，但它日益成为必要条件。

注意： 所有标记”（估计）“的数据均来自2026年中的公开市场信息、公司披露、分析师估算及行业报告。本文不构成投资建议。