2026-06-18 — views
实体AI算力对决 — Waymo Google Cloud TPU vs Tesla Dojo D1:训练基础设施基准测试 2026
Waymo 使用 Google TPU Pod 并享受补贴算力,每日模拟 150 亿英里。Tesla 建造 Dojo D1 专用芯片训练视频,同步运行 NVIDIA H100 集群。
概述
AI 训练算力基础设施是各公司提升自动驾驶模型能力的核心引擎。Waymo 身为 Alphabet 子公司,使用 Google Cloud TPU——与训练 Gemini 等 Google AI 系统相同的算力生态系统。Tesla 则自建 Dojo 超级计算机,采用专为大规模视频数据训练而设计的自研 D1 芯片。本文对两种算力策略进行基准测试——各公司的资源配置、成本结构,以及对 AI 模型迭代速度的影响。本文为实体 AI 基准系列第 165 篇。
第一节 — Waymo 算力架构:Google Cloud + TPU 生态系统
Waymo 的训练基础设施与其 Alphabet 子公司地位密不可分。能够使用 Google 的 TPU Pod——全球最先进的 AI 训练基础设施——是任何独立 AV 初创公司都无法复制的结构性优势。
| 算力维度 | Waymo 详情 | 战略意义 |
|---|---|---|
| 主要训练基础设施 | Waymo 使用 Google Cloud TPU 进行神经网络训练;身为 Alphabet 子公司,Waymo 可访问 Google 内部 TPU Pod——与训练 Gemini 等 Google AI 系统相同的基础设施 | Alphabet 子公司身份使 Waymo 能以边际成本使用全球最先进的 AI 训练基础设施;任何 AV 初创公司都无法独立承担同等算力费用 |
| Google TPU v4/v5 世代 | Google TPU v4 Pod 每个提供约 1 exaFLOP 算力;TPU v5(2023 年发布)能效提升估计达 2 倍以上(估算);Waymo 可按需使用这些资源 | TPU v5 性能代表 Transformer 与卷积架构训练的业界最优——正是 AV 感知与规划所采用的架构类型 |
| Google DeepMind 协同效应 | Waymo 有机会获取 DeepMind 的研究人才与方法论(两者均为 Alphabet 子公司);DeepMind 在 AlphaFold、Gemini 和机器人领域的研究与 AV 挑战高度相关 | 跨子公司的知识转移并非自动实现,但组织邻近性具有重要意义;DeepMind 的机器人研究直接关联 Waymo 的预测与规划问题 |
| 模拟算力(CarCraft) | Waymo 的 CarCraft 模拟系统每日在 Google Cloud 上运行估计 150 亿模拟英里(估算);在此规模下模拟罕见、危险和新颖场景需要大量并行算力 | 每日 150 亿模拟英里意味着 Waymo 可针对极端边缘案例(百万分之一场景)进行训练,这在真实世界里程中永远无法获得足够数量;Google Cloud 的弹性扩展使此成为可能 |
| 成本结构 | Waymo 不需按市场价格支付 Google Cloud 算力费用;身为 Alphabet 子公司,算力成本实际上受到补贴;Waymo 的训练预算未单独披露 | 这项补贴是巨大的结构性优势:独立 AV 初创公司若每年支付逾 10 亿美元购买同等 Google Cloud 算力,将面临 Waymo 所没有的资本限制 |
| 高精地图算力 | Waymo 的高精地图以 Google Maps 基础数据为底,叠加 Waymo 专属的厘米级激光雷达丰化;将原始点云处理成可导航的高精地图需要大量算力 | Google Maps 现有的地图渲染与处理算力基础设施被用于 Waymo 的高精地图生成——这是 Alphabet 关系带来的另一项隐性补贴 |
| 算力策略总评 | Waymo 的算力策略是深度优先:使用全球最佳 AI 训练基础设施(Google TPU)解决一个定义清晰的窄域问题(自动驾驶感知与规划),并以 Google 的模拟规模覆盖边缘案例。这一策略在 Waymo 当前的运营范围内效果显著。主要风险:若 AI 架构向有利于不同算力范式的方向演进,Waymo 将依赖 Google 的路线图而非自主掌控。 |
第二节 — Tesla 算力架构:Dojo D1 + NVIDIA 集群
Tesla 的算力策略与 Waymo 截然相反:不借助现有超大规模云商的基础设施,而是自建专为其主要训练工作负载——视频——优化的芯片与超级计算机。
| 算力维度 | Tesla 详情 | 战略意义 |
|---|---|---|
| Dojo 超级计算机架构 | Tesla 专为视频训练设计 D1 芯片(7nm、362 TFLOPS BF16、每芯片 900 GB/s 内存带宽);D1 芯片组成训练节点(25 芯片/节点 = 9 PFLOPS),节点组成 ExaPOD 机柜(120 节点 = 1.1 EFLOPS/ExaPOD),ExaPOD 构成完整 Dojo 集群 | Dojo 架构针对 Tesla 特定训练工作负载优化:来自数百万辆车辆的大批量视频帧。芯片拓扑(图块间高带宽互连)将视频训练的数据搬移开销降至最低 |
| Tesla 为何自建芯片 | Tesla 主要训练工作负载是视频:来自 600 万辆车辆的数十亿个 8 摄像头视频片段;现有 GPU 和 TPU 架构并非为此特定工作负载模式最优设计;自研芯片使 Tesla 能针对内存带宽、互连拓扑和视频精度格式进行优化 | 自研芯片开发耗资数亿美元并需 3–5 年;Tesla 的理由是 5–10 年期间的训练成本节省超过开发成本——与 Apple 应用于 M 系列芯片的逻辑相同 |
| Dojo vs. NVIDIA GPU 集群 | Tesla 同时使用 NVIDIA H100 集群进行训练(Dojo 补充,并非完全替代 NVIDIA);NVIDIA H100 每 GPU 提供约 2,000 TFLOPS BF16;10,000 GPU H100 集群 = 20 EFLOPS;Tesla 合计 Dojo 与 NVIDIA 算力估计是非超大规模厂商中最大的单一公司 AI 算力部署之一(估算) | Tesla 的双轨策略(Dojo 用于视频优化训练 + NVIDIA 用于通用 AI)体现务实主义:H100 现已可用;Dojo 逐步扩展。同步运行两者使 Tesla 能持续改进 FSD,无需等待 Dojo 成熟 |
| 训练数据流 | Tesla 的主要算力优势是数据而非芯片:600 万辆车 × 平均每日 FSD 启用 1 小时 × 8 个摄像头 = 海量每日视频数据;标注通过数据引擎自动化(影子模式:FSD 做出决策,人类纠正,纠正结果成为标注训练数据) | 数据引擎本身的算力需求也相当庞大:在数百万辆车上执行影子模式推理并处理纠正结果,需要大量推理和存储基础设施,而不仅仅是训练算力 |
| Dojo 部署时间线 | 第一个 Dojo ExaPOD 于 2022 年在德州 Gigafactory 投入运行;马斯克目标 2024 年底达到 100 EFLOPS(估算);实际部署进度未完整披露;Tesla 后续对 NVIDIA H100 集群的持续投入表明 Dojo 扩展速度慢于计划(估算) | Dojo 扩展慢于计划与自研芯片的典型时程延误一致;这并非失败——而是第一代自研芯片的正常轨迹。NVIDIA H100 在 Dojo v2(下一代)就位前填补缺口 |
| Dojo v2 与未来算力 | Tesla 提及下一代 Dojo 芯片;截至 2026 年中期详情未披露(估算);若 Dojo v2 遵循典型的每代 2 倍性能提升,Tesla 的训练算力可能在 2027 年达到数百 EFLOPS(估算) | 轨迹比当前容量更重要:若 Dojo v2 兑现承诺,Tesla 的训练算力达到超大规模厂商水平,Tesla 将是唯一拥有自研 AI 训练芯片且达到该规模的非超大规模厂商 |
| 算力策略总评 | Tesla 的算力策略是自建 vs. 外购的最大雄心版本:建造针对特定训练工作负载优化的自研芯片与超级计算机,同时过渡期租用 NVIDIA。策略高风险(自研芯片常低于预期)、高回报(若 Dojo 按设计运行,Tesla 每次 FSD 改进的训练成本将大幅下降)。主要风险:Dojo D1 可能未达到性能与良率目标,使开发成本相对持续依赖 NVIDIA 难以自圆其说。 |
第三节 — 正面算力对比
| 维度 | Waymo / Google TPU | Tesla Dojo + NVIDIA | 优势 |
|---|---|---|---|
| 训练算力规模(估算) | 可访问 Google 完整 TPU 机队——潜在数百 EFLOPS(估算);与所有 Google AI 项目共享 | Tesla 合计 Dojo 与 NVIDIA 估计数十 EFLOPS(估算);专用于 Tesla AI 工作负载 | Waymo 可访问更多总算力;Tesla 拥有更多专用算力 |
| 算力成本结构 | 实际受补贴(Alphabet 子公司);无需按市场价格支付 Google TPU | 混合模式:Dojo 资本支出分摊于训练生命周期;NVIDIA H100 按市场价格租用/购买;金额可观但有限 | Waymo 在当前规模下每次训练算力成本决定性优势 |
| AV 芯片定制化 | TPU 针对 Google 工作负载优化(非 AV 专用);灵活但未特化 | Dojo D1 专为 AV 规模视频训练设计 | Tesla 在芯片适配性上具决定性优势;Waymo 使用通用 AI 芯片 |
| 训练数据量 | 约 3,000 万无人商业驾驶英里(估算);高纯度(全无人 = 干净标注)但量少 | 约 60 亿监督式 FSD 英里(估算);标注纯度较低(人类监督)但量巨大 | Tesla 在数据量上决定性优势;Waymo 在数据纯度上决定性优势 |
| 模拟规模 | 每日 150 亿模拟英里(估算),通过 CarCraft 运行于 Google Cloud | 通过 Dojo 持续成长的模拟能力;规模未披露(估算) | Waymo 在当前模拟规模上决定性优势 |
| 算力路线图掌控 | 依赖 Google TPU 路线图(TPU v5 到 v6 等);无自主芯片设计 | Tesla 掌控自身芯片路线图;可针对 AV 需求优化 D1 到 D2 | Tesla 在算力主权与路线图掌控上决定性优势 |
| 算力总评 | Waymo 的 Google Cloud / TPU 优势在今天是结构性的:更多总算力、更低有效成本、业界最佳 TPU 性能、无可匹敌的模拟规模。Tesla 的 Dojo 优势是长期战略性的:针对特定视频训练工作负载的专用芯片、独立路线图、无需与其他 Alphabet AI 项目共享。2028 年的关键问题是 Dojo v2 能否兑现其性能承诺。 |
第四节 — 算力在 AV 竞赛中决定什么
| AI 能力 | 算力如何决定 | Waymo 优势 | Tesla 优势 |
|---|---|---|---|
| 感知精度 | 更好的训练数据加上更多算力带来更低的检测错误率;感知模型必须在数十亿标注帧上训练 | 无人驾驶标注纯度:训练数据无人类监督噪声 | 60 亿英里视频数据;数据量覆盖罕见案例 |
| 预测(其他代理) | 建模人类行为需要在多样化真实场景上训练;模拟填补真实数据无法覆盖的空白 | 每日 150 亿模拟英里系统性覆盖边缘案例 | 真实世界数据的规模提供模拟所近似的行为多样性 |
| 规划(做什么) | 规划策略训练需要大规模模拟以安全测试边缘案例;真实世界测试对罕见场景过于危险且昂贵 | Google Cloud 模拟规模在规划策略改进上决定性 | 端到端 FSD v12 将感知与规划合并为一个网络——将算力问题从两步骤简化为一步 |
| 泛化(新城市) | 泛化至新城市需要:(a) 在该城市数据上训练,或 (b) 对该城市场景进行算力密集的模拟 | 高精地图加模拟方式意味着 Waymo 必须在商业启动前为每座新城市生成地图并进行模拟 | Tesla 的无地图 FSD 方式不需要城市专用模拟;模型从训练分布泛化 |
| 模型迭代速度 | 更快的训练算力带来每周更多实验次数,加快模型改进 | 更多 TPU 访问意味着可同时进行更多实验 | 专用 Dojo 算力意味着无需与其他 Google AI 项目竞争资源 |
第五节 — 算力基准评分卡
| 维度 | Waymo / Google | Tesla Dojo + NVIDIA | 优势 | 2028 年展望 |
|---|---|---|---|---|
| 总训练算力访问 | 决定性 — Google TPU 机队是地球上最大的 AI 算力部署之一 | 庞大但未达 Google 规模 | Waymo(当前) | 随 Dojo 扩展,Tesla 缩小差距 |
| 算力成本效率 | 决定性 — 作为 Alphabet 子公司实际受补贴 | 市场价格 NVIDIA 加 Dojo 资本支出 | Waymo(当前) | 取决于 Dojo D2 交付 |
| AV 工作负载芯片适配 | 通用 TPU(灵活但非 AV 优化) | Dojo D1 专为视频训练设计(AV 优化) | Tesla | Tesla 的专用芯片若能兑现是长期优势 |
| 算力路线图掌控 | 依赖 Google TPU 路线图 | 独立 Dojo 路线图 | Tesla | Tesla 对芯片路线图的掌控是战略资产 |
| 模拟规模 | 决定性 — 每日 150 亿模拟英里(估算) | 成长中;规模未披露(估算) | Waymo(当前) | 双方均扩展;Waymo 先发优势显著 |
| 训练数据质量 × 量 | 更高纯度(无人驾驶),较低量 | 较低纯度(监督式),远更高量 | 视使用情境而定 | 随 Tesla 车队成长,量的优势持续复利 |
| 总体评定 | Waymo 在今天大多数指标上拥有更优越的算力基础设施:更多 TPU 访问、更低有效成本,以及全球最佳模拟规模。Tesla 的赌注是 Dojo——专为视频训练打造——最终将比通用 TPU 实现更低的每次训练算力成本,且数据量(600 万辆车)将充分弥补较低的标注纯度。2028 年的算力竞赛是 Dojo v2 vs TPU v6:哪个芯片路线图更能满足大规模训练通才 AV 策略的特定需求。 |
所有标注为(估算)的数据来自公司公开披露、分析师估计和行业基准。本文为实体 AI 基准系列第 165 篇。
来源
- Tesla Dojo D1 芯片架构 — Tesla AI Day 2021 ↗
- Google TPU v5 发布 — Google Cloud ↗
- Waymo CarCraft 模拟系统 — Waymo 研究博客 ↗
- Tesla FSD 训练数据流 — Tesla AI Day 2022 ↗
- Google Alphabet AI 基础设施 — Alphabet 财报 ↗