2026-06-18 — views
实体AI算力基础设施 — Tesla Dojo、Google TPU、NVIDIA H100在自动驾驶训练军备竞赛中的角力
Tesla押注Dojo自研芯片目标每FLOP 1美元,Waymo继承Google TPU规模优势,两者在训练迭代速度上均大幅领先依赖NVIDIA的竞争对手。
实体AI基准测评系列第130篇 — 实体AI算力基础设施:Tesla Dojo vs Google TPU vs NVIDIA H100/H200,FSD、Waymo神经网络与Optimus策略学习背后的AI训练军备竞赛
驱动FSD、Waymo感知系统与Optimus策略学习的AI模型,均在大规模算力集群上完成训练。算力基础设施决定了各公司的迭代速度——训练新模型、执行消融实验、将改进部署至车队的速度。Tesla押注自研芯片(Dojo D1芯片加ExaPOD集群)。Waymo继承Google世界级的TPU基础设施。其余所有自动驾驶与机器人公司则租用NVIDIA H100/H200集群。本文将算力基础设施作为实体AI基准测评的核心维度加以呈现。
标记”(估计)“的数据来自公开市场信息、公司披露及分析师估算,而非经核实的原始数据。
第一节 — Tesla Dojo:自研芯片的豪赌
Tesla的Dojo计划是自动驾驶行业最雄心勃勃的自研芯片押注。Tesla不向云端供应商租用NVIDIA算力,而是自行设计训练芯片(Dojo D1),并将其组装成专用于FSD训练、自动标注及Optimus策略学习的ExaPOD集群。
| 指标 | Dojo D1芯片 | Dojo ExaPOD(训练集群) | 现状(2026年中) |
|---|---|---|---|
| 架构 | 台积电7nm自研设计;362 TFLOPS BF16;10 TB/s片上带宽(Tesla已披露) | 每个训练模块120颗Dojo D1;每个ExaPOD机柜3,000颗芯片 | 自研设计——无GPU厂商依赖 |
| 目标算力 | 每ExaPOD集群1 ExaFLOP(Tesla披露之目标) | 多个ExaPOD = 多个ExaFLOP | 依Tesla AI Day披露,约达1 ExaFLOP(估计) |
| 训练用途 | FSD神经网络(图像到驾驶策略);Occupancy Network;Auto-Labeling流水线 | 完整FSD训练流程:从600万辆以上车队的原始图像生成更新的FSD模型 | FSD v12/v13/v14在Dojo上训练(估计) |
| Optimus应用 | Optimus策略学习(操作、导航)共享Dojo基础设施(估计) | 人形机器人策略比驾驶需要更多样的数据——每次改进所需算力更高(估计) | Optimus早期训练在Dojo上进行(估计);规模持续扩大 |
| 相较NVIDIA的成本 | Musk引用每训练FLOP 1美元目标,vs租用NVIDIA H100集群约3-4美元(估计) | 若达成:每次训练运行相较云端GPU具约3-4倍成本优势 | 优势取决于Dojo使用率与良率 |
| 风险 | 自研芯片良率风险;台积电7nm现已成熟,但Dojo架构为专有技术;若芯片设计有缺陷,修复速度慢 | 单一供应商依赖自身芯片团队 | 核心风险:NVIDIA H100集群现已可大规模获取;Dojo建设有所延误 |
| 战略价值 | 若Dojo实现成本目标:Tesla训练FSD比任何租用算力的竞争对手都更快、更便宜 | 训练速度 = 模型迭代速度 = 脱离辅助率改善速度 | Dojo押注将资本支出转化为持久的成本护城河 |
Dojo论点建立在一个直观的成本方程式上:若Tesla能以每FLOP 1美元完成模型训练,而不是在租用的H100集群上花费3-4美元,则每次FSD迭代的成本比竞争对手低三到四倍。在每年数百次训练运行的情况下,这一成本优势会复利累积成迭代速度优势——每美元能执行更多实验,意味着更快收敛至更优质的模型。
第二节 — Waymo与Google TPU:以母公司身份继承的基础设施优势
Waymo的算力优势是结构性的而非靠努力争取的:作为Alphabet子公司,Waymo继承了Google TPU基础设施的访问权——驱动Google搜索、YouTube推荐及Gemini训练的同款自研芯片。没有任何自动驾驶初创公司能在不投入同等资本的情况下与之匹敌。
| 指标 | Google TPU v4/v5 | Waymo的访问权 | 战略意涵 |
|---|---|---|---|
| 架构 | Google自研TPU(张量处理器);v4 = 275 TFLOPS;v5p = 约460 TFLOPS(估计) | Waymo是Alphabet子公司——可完全访问Google TPU集群及Google Cloud基础设施 | Waymo无需在算力上自行投入资本;Alphabet承担基础设施成本 |
| 集群规模 | Google运营全球最大规模的TPU集群之一(确切容量未披露) | Waymo可按需访问Google规模的算力 | Waymo的算力上限即为Google的整体基础设施 |
| 仿真基础设施 | Google的NeRF场景重建(大规模仿真)在TPU + GPU集群上执行 | Waymo的仿真流水线将真实里程倍增为合成训练数据 | 1英里真实数据 → 1,000多个仿真变体 → TPU对全部变体进行训练 |
| 对Waymo的成本 | Alphabet内部成本分摊(未披露);Waymo按内部转让价格付费 | 实质上是Alphabet的补贴 | 竞争护城河:没有自动驾驶初创公司能在不投入同等资本的情况下复制Google的算力 |
| 风险 | 依赖Alphabet:若Waymo被分拆或出售,TPU访问权可能改变 | Alphabet已展现持续投资Waymo的意愿 | 在Waymo仍为子公司时风险低;若独立IPO则风险中等 |
| 训练重点 | Waymo的MultiPath++(轨迹预测)、OccupancyFlow(环境模型)、感知栈 | Waymo所有主要神经网络均在Google TPU基础设施上训练 | 可能涉及Google Brain / DeepMind合作(估计) |
仿真倍增器是Waymo最被低估的算力放大器。一英里真实世界的驾驶数据可被转换为数千个仿真变体——不同光线条件、不同行人行为、不同交通模式、传感器噪声变化。每个仿真变体都是一个新的训练样本。当这些样本由Google规模的TPU基础设施生成并处理时,Waymo的有效训练数据量远超其车队的实际里程数。
第三节 — NVIDIA:所有其他自动驾驶公司依赖的现有供应商
对于任何既非Tesla也非Waymo的自动驾驶或机器人公司而言,NVIDIA是唯一可行的大规模算力路径。这造成了一种结构性依赖,将训练迭代速度限制在公司所能负担或谈判获取的H100/H200容量范围内。
| 指标 | NVIDIA H100 | NVIDIA H200 | NVIDIA DRIVE Orin(车载) |
|---|---|---|---|
| 架构 | Hopper;3.9 PetaFLOPS BF16(已披露) | Hopper + HBM3e;约3.9 PF BF16 + 更高内存带宽 | 每芯片254 TOPS;汽车安全等级 |
| 云端可用性 | AWS、Azure、GCP、CoreWeave、Lambda Labs——任何自动驾驶公司均可获取 | H200可通过与H100相同的云端供应商获取 | 销售给Tier 1供应商和自动驾驶公司 |
| 成本 | 云端每小时约2-4美元(估计,因供应商与现货定价而异) | 云端每小时约3-5美元(估计) | 每芯片约750美元以上(估计);用于Zoox、Aurora等自动驾驶车 |
| 使用H100/H200训练的自动驾驶公司 | Aurora、Zoox、Mobileye、Wayve及大多数非Waymo/Tesla自动驾驶公司均租用H100/H200时间 | — | — |
| NVIDIA DRIVE平台 | — | — | 独立产品:DRIVE Orin(254 TOPS)+ DRIVE Thor(2,000 TOPS,已宣布);车内自动驾驶感知/规划AI |
| 战略角色 | 若无Dojo或Google TPU,自动驾驶训练的默认基础设施 | H200 = 当前前沿;H100 = 可获取且广泛使用 | NVIDIA车载算力主导非Tesla/非Waymo自动驾驶市场 |
| 自动驾驶公司的风险 | 集中风险:NVIDIA定价能力;2023年H100供应限制导致训练延误 | — | 除Tesla(HW4)和Waymo(自研TPU)外,所有竞争对手的车载算力均依赖NVIDIA |
NVIDIA依赖形成了一种随时间复利加剧的战略不对称性。Aurora、Zoox、Mobileye和Wayve均在租用的H100集群上执行训练工作负载。当NVIDIA推出H200或下一代Blackwell芯片时,这些公司都会同等受益——没有人能从硬件访问中获得优势。训练算力的底线对所有人同步提升,但上限保持不变:即云端市场按市价愿意出售给你的容量。
第四节 — 算力作为扩张倍增器:训练迭代速度
算力基础设施差异的实际后果是训练迭代速度——每月每家公司能执行多少个模型改进周期。迭代次数越多,意味着脱离辅助率改善越快、长尾边缘案例覆盖越快、对新驾驶环境的适应越快。
| 公司 | 训练集群 | 估计每月训练次数 | 模型迭代速度 | 扩张意涵 |
|---|---|---|---|---|
| Tesla | Dojo ExaPOD(1+ ExaFLOP估计) | 高——专用集群服务FSD + Optimus | 若Dojo达到规格:迭代速度最快(估计) | 脱离辅助率改善速度与训练迭代速度成正比 |
| Waymo | Google TPU(Alphabet规模) | 非常高——Google基础设施;不与商业客户竞争资源 | 非常快;Google的算力规模无可匹敌 | Waymo的仿真到训练流水线倍增有效算力 |
| Aurora | 租用NVIDIA H100/H200 | 中等——受预算限制;优先安全验证 | 中等——依赖资本 | 募资限制制约训练迭代 |
| Zoox | Amazon云端(EC2 + 租用H100)——Amazon拥有Zoox | 高——Amazon基础设施 | 快——Amazon云端访问类似Waymo的Google优势 | 被低估的优势:Zoox的Amazon所有权 = 按需云端算力 |
| Mobileye | Intel算力 + 租用H100 | 中等 | 中等 | EyeQ芯片团队具备硅基专业知识;训练算力聚焦度较低 |
| Figure AI | 租用H100;NVIDIA合作伙伴关系 | 中等 | 中等 | OpenAI语言模型集成 = 语言组件的独特算力访问 |
Zoox在此表中值得特别关注,因其是继Tesla和Waymo之后,最被低估的算力优势自动驾驶公司。Amazon对Zoox的所有权赋予其按内部转让价格访问AWS基础设施的能力——一种本质上与Waymo的TPU访问平行的结构性优势。这一优势尚未转化为可见的商业牵引力,但这意味着Zoox的训练迭代上限并不受限于与Aurora相同的预算约束。
第五节 — 算力基础设施基准测评计分卡
| 维度 | Tesla(Dojo) | Waymo(Google TPU) | 依赖NVIDIA的公司 | 优势方 |
|---|---|---|---|---|
| 可用原始算力 | 约1+ ExaFLOP估计(持续增长) | Google规模(未披露;实际上无上限) | 受预算和H100可用性限制 | Waymo(Alphabet支撑) |
| 每FLOP成本(估计) | 目标每FLOP 1美元(若Dojo达成) | 近乎零(内部转让) | 云端每FLOP 2-4美元(估计) | Waymo或Tesla(取决于Dojo良率) |
| 自研芯片优势 | 是——Dojo D1;D2开发中 | 是——Google TPU v4/v5 | 否——依赖NVIDIA | Tesla + Waymo均具备自研芯片护城河 |
| 迭代速度 | 高(专用集群) | 非常高(Google规模 + 仿真倍增器) | 中等(受预算限制) | Waymo略胜(仿真倍增器复利效应) |
| 车载算力 | HW4 = 288 TOPS(4颗台积电7nm自研芯片);无NVIDIA依赖 | Waymo车载自研TPU | NVIDIA DRIVE Orin(约750美元以上估计) | Tesla(垂直整合;无第三方成本或交期) |
| Dojo vs TPU评判 | Dojo是一项数十亿美元的押注,押注自研芯片能打造持久成本护城河 | Google TPU已被大规模验证;Waymo继承其成果 | — | 两者在规模上均优于租用H100;Waymo今日的访问规模更大 |
算力基础设施计分卡揭示了一个两层架构的实体AI产业。第一层由Tesla和Waymo组成——两者均拥有用于训练和推理的自研芯片,均拥有可独立于云端市场定价扩展的专用集群,且车载算力均不依赖NVIDIA。第二层由所有其他自动驾驶和机器人公司组成——在训练和车载推理上均结构性依赖NVIDIA,训练迭代速度受云端预算限制而非基础设施上限。
长期影响是一个随时间复利加剧的训练迭代差距。若Tesla每月能执行Dojo让其成本为Aurora三分之一的FSD训练实验,而Waymo因Google基础设施无容量上限而能执行五倍的实验,则第一层与第二层之间的神经网络质量差距将逐月扩大——与研究团队的素质无关。算力基础设施不是实体AI领导地位的充分条件,但它日益成为必要条件。
注意: 所有标记”(估计)“的数据均来自2026年中的公开市场信息、公司披露、分析师估算及行业报告。本文不构成投资建议。
来源
- Tesla Dojo超级计算机 — Tesla AI Day ↗
- Google TPU基础设施 — Google Cloud ↗
- NVIDIA H100规格 — NVIDIA ↗
- NVIDIA DRIVE Orin车载平台 — NVIDIA ↗
- Waymo研究与仿真基础设施 — Waymo ↗