2026-06-18 — views

实体AI算力对决 — Waymo Google Cloud TPU vs Tesla Dojo D1：训练基础设施基准测试 2026

Waymo 使用 Google TPU Pod 并享受补贴算力，每日模拟 150 亿英里。Tesla 建造 Dojo D1 专用芯片训练视频，同步运行 NVIDIA H100 集群。

概述

AI 训练算力基础设施是各公司提升自动驾驶模型能力的核心引擎。Waymo 身为 Alphabet 子公司，使用 Google Cloud TPU——与训练 Gemini 等 Google AI 系统相同的算力生态系统。Tesla 则自建 Dojo 超级计算机，采用专为大规模视频数据训练而设计的自研 D1 芯片。本文对两种算力策略进行基准测试——各公司的资源配置、成本结构，以及对 AI 模型迭代速度的影响。本文为实体 AI 基准系列第 165 篇。

第一节 — Waymo 算力架构：Google Cloud + TPU 生态系统

Waymo 的训练基础设施与其 Alphabet 子公司地位密不可分。能够使用 Google 的 TPU Pod——全球最先进的 AI 训练基础设施——是任何独立 AV 初创公司都无法复制的结构性优势。

算力维度	Waymo 详情	战略意义
主要训练基础设施	Waymo 使用 Google Cloud TPU 进行神经网络训练；身为 Alphabet 子公司，Waymo 可访问 Google 内部 TPU Pod——与训练 Gemini 等 Google AI 系统相同的基础设施	Alphabet 子公司身份使 Waymo 能以边际成本使用全球最先进的 AI 训练基础设施；任何 AV 初创公司都无法独立承担同等算力费用
Google TPU v4/v5 世代	Google TPU v4 Pod 每个提供约 1 exaFLOP 算力；TPU v5（2023 年发布）能效提升估计达 2 倍以上（估算）；Waymo 可按需使用这些资源	TPU v5 性能代表 Transformer 与卷积架构训练的业界最优——正是 AV 感知与规划所采用的架构类型
Google DeepMind 协同效应	Waymo 有机会获取 DeepMind 的研究人才与方法论（两者均为 Alphabet 子公司）；DeepMind 在 AlphaFold、Gemini 和机器人领域的研究与 AV 挑战高度相关	跨子公司的知识转移并非自动实现，但组织邻近性具有重要意义；DeepMind 的机器人研究直接关联 Waymo 的预测与规划问题
模拟算力（CarCraft）	Waymo 的 CarCraft 模拟系统每日在 Google Cloud 上运行估计 150 亿模拟英里（估算）；在此规模下模拟罕见、危险和新颖场景需要大量并行算力	每日 150 亿模拟英里意味着 Waymo 可针对极端边缘案例（百万分之一场景）进行训练，这在真实世界里程中永远无法获得足够数量；Google Cloud 的弹性扩展使此成为可能
成本结构	Waymo 不需按市场价格支付 Google Cloud 算力费用；身为 Alphabet 子公司，算力成本实际上受到补贴；Waymo 的训练预算未单独披露	这项补贴是巨大的结构性优势：独立 AV 初创公司若每年支付逾 10 亿美元购买同等 Google Cloud 算力，将面临 Waymo 所没有的资本限制
高精地图算力	Waymo 的高精地图以 Google Maps 基础数据为底，叠加 Waymo 专属的厘米级激光雷达丰化；将原始点云处理成可导航的高精地图需要大量算力	Google Maps 现有的地图渲染与处理算力基础设施被用于 Waymo 的高精地图生成——这是 Alphabet 关系带来的另一项隐性补贴
算力策略总评	Waymo 的算力策略是深度优先：使用全球最佳 AI 训练基础设施（Google TPU）解决一个定义清晰的窄域问题（自动驾驶感知与规划），并以 Google 的模拟规模覆盖边缘案例。这一策略在 Waymo 当前的运营范围内效果显著。主要风险：若 AI 架构向有利于不同算力范式的方向演进，Waymo 将依赖 Google 的路线图而非自主掌控。

第二节 — Tesla 算力架构：Dojo D1 + NVIDIA 集群

Tesla 的算力策略与 Waymo 截然相反：不借助现有超大规模云商的基础设施，而是自建专为其主要训练工作负载——视频——优化的芯片与超级计算机。

算力维度	Tesla 详情	战略意义
Dojo 超级计算机架构	Tesla 专为视频训练设计 D1 芯片（7nm、362 TFLOPS BF16、每芯片 900 GB/s 内存带宽）；D1 芯片组成训练节点（25 芯片/节点 = 9 PFLOPS），节点组成 ExaPOD 机柜（120 节点 = 1.1 EFLOPS/ExaPOD），ExaPOD 构成完整 Dojo 集群	Dojo 架构针对 Tesla 特定训练工作负载优化：来自数百万辆车辆的大批量视频帧。芯片拓扑（图块间高带宽互连）将视频训练的数据搬移开销降至最低
Tesla 为何自建芯片	Tesla 主要训练工作负载是视频：来自 600 万辆车辆的数十亿个 8 摄像头视频片段；现有 GPU 和 TPU 架构并非为此特定工作负载模式最优设计；自研芯片使 Tesla 能针对内存带宽、互连拓扑和视频精度格式进行优化	自研芯片开发耗资数亿美元并需 3–5 年；Tesla 的理由是 5–10 年期间的训练成本节省超过开发成本——与 Apple 应用于 M 系列芯片的逻辑相同
Dojo vs. NVIDIA GPU 集群	Tesla 同时使用 NVIDIA H100 集群进行训练（Dojo 补充，并非完全替代 NVIDIA）；NVIDIA H100 每 GPU 提供约 2,000 TFLOPS BF16；10,000 GPU H100 集群 = 20 EFLOPS；Tesla 合计 Dojo 与 NVIDIA 算力估计是非超大规模厂商中最大的单一公司 AI 算力部署之一（估算）	Tesla 的双轨策略（Dojo 用于视频优化训练 + NVIDIA 用于通用 AI）体现务实主义：H100 现已可用；Dojo 逐步扩展。同步运行两者使 Tesla 能持续改进 FSD，无需等待 Dojo 成熟
训练数据流	Tesla 的主要算力优势是数据而非芯片：600 万辆车 × 平均每日 FSD 启用 1 小时 × 8 个摄像头 = 海量每日视频数据；标注通过数据引擎自动化（影子模式：FSD 做出决策，人类纠正，纠正结果成为标注训练数据）	数据引擎本身的算力需求也相当庞大：在数百万辆车上执行影子模式推理并处理纠正结果，需要大量推理和存储基础设施，而不仅仅是训练算力
Dojo 部署时间线	第一个 Dojo ExaPOD 于 2022 年在德州 Gigafactory 投入运行；马斯克目标 2024 年底达到 100 EFLOPS（估算）；实际部署进度未完整披露；Tesla 后续对 NVIDIA H100 集群的持续投入表明 Dojo 扩展速度慢于计划（估算）	Dojo 扩展慢于计划与自研芯片的典型时程延误一致；这并非失败——而是第一代自研芯片的正常轨迹。NVIDIA H100 在 Dojo v2（下一代）就位前填补缺口
Dojo v2 与未来算力	Tesla 提及下一代 Dojo 芯片；截至 2026 年中期详情未披露（估算）；若 Dojo v2 遵循典型的每代 2 倍性能提升，Tesla 的训练算力可能在 2027 年达到数百 EFLOPS（估算）	轨迹比当前容量更重要：若 Dojo v2 兑现承诺，Tesla 的训练算力达到超大规模厂商水平，Tesla 将是唯一拥有自研 AI 训练芯片且达到该规模的非超大规模厂商
算力策略总评	Tesla 的算力策略是自建 vs. 外购的最大雄心版本：建造针对特定训练工作负载优化的自研芯片与超级计算机，同时过渡期租用 NVIDIA。策略高风险（自研芯片常低于预期）、高回报（若 Dojo 按设计运行，Tesla 每次 FSD 改进的训练成本将大幅下降）。主要风险：Dojo D1 可能未达到性能与良率目标，使开发成本相对持续依赖 NVIDIA 难以自圆其说。

第三节 — 正面算力对比

维度	Waymo / Google TPU	Tesla Dojo + NVIDIA	优势
训练算力规模（估算）	可访问 Google 完整 TPU 机队——潜在数百 EFLOPS（估算）；与所有 Google AI 项目共享	Tesla 合计 Dojo 与 NVIDIA 估计数十 EFLOPS（估算）；专用于 Tesla AI 工作负载	Waymo 可访问更多总算力；Tesla 拥有更多专用算力
算力成本结构	实际受补贴（Alphabet 子公司）；无需按市场价格支付 Google TPU	混合模式：Dojo 资本支出分摊于训练生命周期；NVIDIA H100 按市场价格租用/购买；金额可观但有限	Waymo 在当前规模下每次训练算力成本决定性优势
AV 芯片定制化	TPU 针对 Google 工作负载优化（非 AV 专用）；灵活但未特化	Dojo D1 专为 AV 规模视频训练设计	Tesla 在芯片适配性上具决定性优势；Waymo 使用通用 AI 芯片
训练数据量	约 3,000 万无人商业驾驶英里（估算）；高纯度（全无人 = 干净标注）但量少	约 60 亿监督式 FSD 英里（估算）；标注纯度较低（人类监督）但量巨大	Tesla 在数据量上决定性优势；Waymo 在数据纯度上决定性优势
模拟规模	每日 150 亿模拟英里（估算），通过 CarCraft 运行于 Google Cloud	通过 Dojo 持续成长的模拟能力；规模未披露（估算）	Waymo 在当前模拟规模上决定性优势
算力路线图掌控	依赖 Google TPU 路线图（TPU v5 到 v6 等）；无自主芯片设计	Tesla 掌控自身芯片路线图；可针对 AV 需求优化 D1 到 D2	Tesla 在算力主权与路线图掌控上决定性优势
算力总评	Waymo 的 Google Cloud / TPU 优势在今天是结构性的：更多总算力、更低有效成本、业界最佳 TPU 性能、无可匹敌的模拟规模。Tesla 的 Dojo 优势是长期战略性的：针对特定视频训练工作负载的专用芯片、独立路线图、无需与其他 Alphabet AI 项目共享。2028 年的关键问题是 Dojo v2 能否兑现其性能承诺。

第四节 — 算力在 AV 竞赛中决定什么

AI 能力	算力如何决定	Waymo 优势	Tesla 优势
感知精度	更好的训练数据加上更多算力带来更低的检测错误率；感知模型必须在数十亿标注帧上训练	无人驾驶标注纯度：训练数据无人类监督噪声	60 亿英里视频数据；数据量覆盖罕见案例
预测（其他代理）	建模人类行为需要在多样化真实场景上训练；模拟填补真实数据无法覆盖的空白	每日 150 亿模拟英里系统性覆盖边缘案例	真实世界数据的规模提供模拟所近似的行为多样性
规划（做什么）	规划策略训练需要大规模模拟以安全测试边缘案例；真实世界测试对罕见场景过于危险且昂贵	Google Cloud 模拟规模在规划策略改进上决定性	端到端 FSD v12 将感知与规划合并为一个网络——将算力问题从两步骤简化为一步
泛化（新城市）	泛化至新城市需要：(a) 在该城市数据上训练，或 (b) 对该城市场景进行算力密集的模拟	高精地图加模拟方式意味着 Waymo 必须在商业启动前为每座新城市生成地图并进行模拟	Tesla 的无地图 FSD 方式不需要城市专用模拟；模型从训练分布泛化
模型迭代速度	更快的训练算力带来每周更多实验次数，加快模型改进	更多 TPU 访问意味着可同时进行更多实验	专用 Dojo 算力意味着无需与其他 Google AI 项目竞争资源

第五节 — 算力基准评分卡

维度	Waymo / Google	Tesla Dojo + NVIDIA	优势	2028 年展望
总训练算力访问	决定性 — Google TPU 机队是地球上最大的 AI 算力部署之一	庞大但未达 Google 规模	Waymo（当前）	随 Dojo 扩展，Tesla 缩小差距
算力成本效率	决定性 — 作为 Alphabet 子公司实际受补贴	市场价格 NVIDIA 加 Dojo 资本支出	Waymo（当前）	取决于 Dojo D2 交付
AV 工作负载芯片适配	通用 TPU（灵活但非 AV 优化）	Dojo D1 专为视频训练设计（AV 优化）	Tesla	Tesla 的专用芯片若能兑现是长期优势
算力路线图掌控	依赖 Google TPU 路线图	独立 Dojo 路线图	Tesla	Tesla 对芯片路线图的掌控是战略资产
模拟规模	决定性 — 每日 150 亿模拟英里（估算）	成长中；规模未披露（估算）	Waymo（当前）	双方均扩展；Waymo 先发优势显著
训练数据质量 × 量	更高纯度（无人驾驶），较低量	较低纯度（监督式），远更高量	视使用情境而定	随 Tesla 车队成长，量的优势持续复利
总体评定	Waymo 在今天大多数指标上拥有更优越的算力基础设施：更多 TPU 访问、更低有效成本，以及全球最佳模拟规模。Tesla 的赌注是 Dojo——专为视频训练打造——最终将比通用 TPU 实现更低的每次训练算力成本，且数据量（600 万辆车）将充分弥补较低的标注纯度。2028 年的算力竞赛是 Dojo v2 vs TPU v6：哪个芯片路线图更能满足大规模训练通才 AV 策略的特定需求。

所有标注为（估算）的数据来自公司公开披露、分析师估计和行业基准。本文为实体 AI 基准系列第 165 篇。