Skip to content
AI-Daily-Builder

2026-06-18 views

Physical AI 算力 2026 — Waymo Google TPU 对比 Tesla Dojo D1 与 FSD 芯片:AI 训练基础设施基准测试

Waymo 使用 Google TPU 集群训练模型;Tesla 以 Dojo D1 加上 600 万辆车队数据训练。训练算力差距是 Physical AI 隐形的速度限制器。

实体 AI 基准系列第 182 篇:AI 训练与推理基础设施

建立全球最佳自动驾驶系统的竞赛,同时也是 AI 算力的竞赛。训练算力决定每家公司改善模型的速度;推理算力决定这些改良后的模型是否能在车辆中实时运行。两个维度都至关重要——却鲜少有人以分析传感器硬件、安全里程或法规许可同等严谨的态度来分析它们。本文以 AI 训练与推理基础设施作为核心 Physical AI 竞争变量,对 Waymo 与 Tesla 进行基准测试。


第一节:AI 训练算力为何是 Physical AI 的速度限制器

自动驾驶在本质上是一个机器学习问题。自动驾驶系统的质量受两件事限制:训练数据的质量,以及可用于训练的算力。更多算力能训练更大的模型、执行更多实验、加快迭代周期、并提升泛化能力。同一份数据集在十倍算力下训练,可靠地产出更好的模型。训练算力是”改进速率”的杠杆——决定质量天花板上升速度的变量。

两个关键算力维度主导 Physical AI 竞赛:

训练算力 — 用于离线改善模型,在总部进行。这是 Google TPU 与 Tesla Dojo 的战场。训练算力是幕后加速器,不影响今日的车辆,却决定下一季软件更新的质量。

推理算力 — 车辆内部实时运行模型的芯片。这是 Tesla FSD HW3/HW4 芯片与 Waymo 车内算力的战场。推理算力决定当前车辆今天能安全执行什么。

训练与推理是分开的课题。一家公司可以拥有顶尖训练算力却车内推理能力有限,反之亦然。复利优势来自在两者上都表现出色。

NVIDIA 主导地位是基准线: 大多数 AV 公司——Zoox、Aurora、Mobileye、Cruise——在 NVIDIA GPU 集群(A100、H100、H200)上训练模型。这是商品化基准线。有趣的竞争差异化来自两个方向偏离基准的公司:(1)使用专有非 NVIDIA 训练芯片(Waymo 通过 Google TPU,Alphabet 是母公司);(2)投资自制训练芯片(Tesla 通过 Dojo D1)。

垂直整合的稀缺性: Tesla 是极少数同时建造自制训练芯片(Dojo D1)与自制推理芯片(FSD 芯片,台积电代工)的公司之一。这种垂直整合代价高昂且技术难度极高,但提供了不依赖 NVIDIA 供应限制与成本结构的战略独立性。没有其他 AV 公司接近 Tesla 的芯片垂直整合程度。


第二节:Waymo 的算力优势:Google TPU 访问

Waymo 在训练算力上的结构性优势来自一个事实:它是 Alphabet 的子公司。Alphabet 建立了全球最大的自制 AI 算力部署之一,Waymo 以内部转让定价在这个基础设施上训练其模型。

维度详情
训练基础设施Waymo 在 Google 的 TPU(张量处理单元)集群上训练模型。Google 拥有全球最大的 TPU 部署之一。作为 Alphabet 子公司,Waymo 以内部转让定价获得优先访问——远低于商业 GPU 集群租用费率。
Google TPU v4 规格Google TPU v4 每颗芯片提供估计 275 TFLOPS(BF16)。TPU v5e 每颗提供估计 197 TFLOPS,但内存带宽与互连架构显著提升。Google 运行由数百至数千颗芯片通过高带宽网络互连的 TPU Pod。
有效训练容量Waymo 从 Alphabet 基础设施获得的有效训练算力,可能超越任何独立 AV 初创公司和大多数 AV 子公司。只有 Zoox(亚马逊 AWS)和 Waymo(Google TPU)拥有此层级的云端母公司算力优势。
算力访问成本Waymo 以内部转让定价向 Alphabet 支付算力费用,估计远低于等效 GPU 集群的市场价格。确切数字未公开披露。
训练数据管线Waymo 的训练数据来自其无人商业车队(商业乘车的传感器数据)、高精地图数据及 Carcraft 仿真。LIDAR 加摄像头加雷达产生多模态训练数据,每帧的信号比纯视觉方法更丰富。
Carcraft 仿真Waymo 使用其 Carcraft 仿真平台大规模生成合成训练场景。Carcraft 据称每天可运行数百万英里的仿真。仿真加真实世界数据构成 Waymo 的综合训练数据集。
与独立 AV 公司的比较Waymo 的 Google TPU 访问是相对于必须在公开市场购买或租用 NVIDIA GPU 集群的 AV 公司的结构性算力优势。Aurora、Mobileye、Zoox(有 AWS)都在 GPU 集群层级运作。Waymo 通过母公司访问在 TPU Pod 层级运作。
Waymo 的关键算力制约尽管有 Google TPU 访问,Waymo 的训练数据量受车队规模限制——截至 2026 年中估计约 2,500 辆。Tesla 600 万辆以上支持 FSD 的车队产生的训练数据在量级上远超 Waymo。算力无法弥补如此巨大的数据量差距。

第三节:Tesla Dojo:自制训练芯片的规模化

Tesla 在 Dojo D1 上的战略押注,是科技业中最雄心勃勃的自制芯片项目之一。从头建造自制 AI 超级计算机——设计芯片、互连、散热、软件堆栈及训练框架——需要几乎没有其他公司尝试过的多年资本与工程人才承诺。

维度详情
Dojo 是什么Dojo 是 Tesla 专为视频训练打造的自制 AI 超级计算机——这是 FSD 训练的主导模态。Tesla 车队产生数十亿英里的摄像头视频。高效大规模处理这些数据需要专为视频工作负载优化的硬件,而非通用 ML。Dojo 就是这个硬件。
D1 芯片规格(估)Tesla D1 芯片:估计 362 TFLOPS(BF16)每颗。通过自制芯片间接口设计高带宽互连。25 颗 D1 芯片拼接成一个”训练瓦片”。瓦片连接成 ExaPOD 机柜。架构设计旨在最小化芯片间数据移动成本——大规模视频训练的主要成本。所有数字均为 Tesla AI Day 2022 披露资料的估算值。
Dojo vs. NVIDIA H100NVIDIA H100:估计 989 TFLOPS(BF16)每颗——约为 D1 每芯片吞吐量的 2.7 倍。然而 D1 的设计目标是大规模部署时更低的每 FLOP 成本,针对 Tesla 运行的视频训练工作负载而非通用 ML 优化。在足够大的规模下,Dojo 架构可能为 Tesla 的特定工作负载提供更好的成本效率。
Dojo 规模(估)Tesla 于 2023-2024 年开始扩大 Dojo 容量。目标:2025-2026 年达到多 exaFLOP 集群(估)。确切目前已部署容量尚未公开披露。Elon Musk 在多个股东和产品活动中引用了激进的 Dojo 扩展目标。
Tesla 建造 Dojo 的原因三个动机:(1)2021-2023 年短缺期间 NVIDIA GPU 供应限制造成单一来源依赖风险;(2)Tesla 特定视频训练工作负载在规模化时每 FLOP 成本更低;(3)摆脱 NVIDIA 定价和配额决策的战略独立性。潜在的第四个动机:将 Dojo 算力作为服务出售给外部 AI 和视频处理公司。
Dojo 训练应用主要:FSD 视频训练——处理来自 Tesla 600 万辆以上车队的数十亿英里摄像头视频。次要:Optimus 人形机器人使用相同视频方法的神经网络训练。潜在未来:作为商业算力服务的外部 AI 和视频训练工作负载。
Dojo 加 NVIDIA 混合Tesla 也在 Dojo 旁边运行大型 NVIDIA H100 集群。2024 年的估计引用了 Tesla 训练基础设施中约 3 万颗以上 H100 GPU(估)。Dojo 是附加容量,而非短期内替代 NVIDIA 的方案。
Dojo 资本支出(估)建造 Dojo 的资本极为密集。Tesla 已引用截至 2024 年超过 10 亿美元(估)的 Dojo 投资。持续扩展将增加这个数字。这是一个对自制芯片而非 NVIDIA 商品路线的重大多年资本押注。

第四节:车内推理:FSD 芯片 vs. Waymo 车内算力

训练算力与推理算力是分开的竞赛。更好的训练集群产出更好的模型。但这些模型随后必须在车辆内部的硬件上以低延迟、低功耗且具备足够边缘情况处理余量的方式实时运行。车内推理芯片是 Physical AI 的”最后一公里”——将训练改善转化为真实世界驾驶能力的组件。

维度WaymoTesla FSD备注
车内算力平台Waymo 在其车辆中使用自制算力硬件。具体芯片规格未公开披露。硬件必须同时实时运行感知融合(LIDAR + 摄像头 + 雷达)、预测和规划。Tesla HW3:估计 144 TOPS——大多数现有 FSD 兼容车辆搭载。Tesla HW4:估计 1,000+ TOPS——2023 年初以来的新车型。硬件世代间的显著飞跃。Tesla 已公开披露 FSD 芯片架构详情。Waymo 未披露其车内硬件规格。
自制芯片Waymo 尚未宣布自制车内推理芯片。车内算力可能使用商业加速器硬件。Tesla 设计自己的 FSD 推理芯片,由台积电代工。内部芯片设计团队已执行多个芯片世代(HW1 至 HW4)。这对 AV 公司来说极为罕见。Tesla 从训练(Dojo)到推理(FSD 芯片)的芯片垂直整合在 AV 公司中无可匹敌。
推理效率Waymo 的多传感器融合(LIDAR + 摄像头 + 雷达)每帧需要大量算力来融合多种模态。每传感器帧的计算负载高于纯视觉方法。Tesla 的纯视觉方法降低了每传感器的算力需求,但端到端神经网络模型很大。HW4 的 1,000+ TOPS 为更大的模型和更复杂的推理提供了充足余量。Tesla HW4 的算力余量可能启用 HW3 无法支持的能力——加速新款车辆软件改善的天花板。
OTA 模型部署Waymo 通过 OTA 在其车队中更新软件和 ML 模型。车队中所有车辆同时收到模型改善。Tesla 通过 OTA 更新 FSD 软件。硬件能力固定(HW3 vs. HW4),但软件可以在现有硬件算力范围内持续提取更多能力。两个车队都通过 OTA 同时接收模型改善。Tesla 的 600 万辆以上车队将每次模型改善分发到更大的基础。
车队整体改善乘数Waymo 估计 2,500 辆车队同时受益于模型更新。Tesla 的 600 万辆以上 FSD 兼容车辆同时收到相同的 OTA 模型更新。每次模型改善的价值随车队规模倍增。Tesla 的车队乘数约为 Waymo 的 2,400 倍。

第五节:AI 算力基准计分卡

维度Waymo / AlphabetTesla2028 展望优势
训练算力访问Google TPU Pod 基础设施(大规模,内部转让定价)NVIDIA H100 集群(估计 3 万颗以上)加 Dojo D1(自制,成长中)两者规模庞大;Dojo 扩展缩小差距大致相当——Waymo Google TPU vs. Tesla Dojo + NVIDIA
训练算力成本内部转让定价——估计远低于市场价格大量资本支出(Dojo)加运营支出(NVIDIA 集群租用,估)Dojo 每 FLOP 成本在规模化后可能大幅下降Waymo(短期训练成本可能较低)
训练数据量受估计 2,500 辆车队限制——比 Tesla 少好几个数量级600 万辆以上 FSD 兼容车辆持续产生真实世界摄像头数据随 Tesla 车队成长差距持续扩大Tesla(压倒性且复利性的优势)
自制训练芯片无——使用 Alphabet/Google TPU(Google 设计,非 Waymo 设计)Dojo D1(Tesla 设计,不依赖 NVIDIA,自制视频训练架构)Tesla 朝 Dojo 自给自足迈进Tesla(战略独立性)
车内推理芯片自制硬件——规格未公开披露HW3(估计 144 TOPS)加 HW4(估计 1,000+ TOPS),台积电代工自制 FSD 芯片HW5 可能在研发中;Tesla 推理路线图持续推进Tesla(公开规格,HW4 余量充足)
OTA 改善部署估计 2,500 辆车队接收每次模型更新600 万辆以上车辆同时接收每次 OTA 模型更新随车队成长差距扩大Tesla
垂直整合部分——训练用 Google TPU,推理用未披露硬件高度——训练用 Dojo,推理用自制 FSD 芯片,OTA 软件堆栈Tesla 是芯片层面最垂直整合的 AV 公司Tesla

总体裁决: Waymo 访问 Google TPU 基础设施的能力,相对于独立 AV 初创公司和大多数 AV 子公司是有意义的训练算力优势——但无法弥补 Waymo 小型车队造成的训练数据缺口。Tesla 的数据优势(600 万辆以上车辆产生数十亿英里真实世界数据)加上 Dojo 成长中的训练容量与 FSD 芯片的推理算力,创造了没有任何竞争对手能够匹敌的数据加算力复利飞轮。

本分析最重要的洞见:在规模化机器学习中,足够质量的数据量几乎总是胜过单纯的算力量。Tesla 既拥有比任何竞争对手都多的数据,又拥有成长中的算力。Waymo 每个数据点拥有更多算力——但数据点少了好几个数量级。在最重要的维度上,训练军备竞赛目前对 Tesla 有利:(训练数据量)乘以(模型迭代速度)的乘积。Waymo 的 Google TPU 优势是真实的。Tesla 的数据飞轮更大。


第六节:关于本系列

本文为实体 AI 基准系列第 182 篇。前几篇涵盖了加速指数、人形机器人竞赛、单位经济学、全球竞争、高精地图、车队运营、软件与 OTA 架构、保险与责任、合作关系、竞争护城河、Cybercab 对比 Model Y、安全数据、Waymo Gen 6、Optimus 制造、计分卡快照、2030 年预测情景、投资者框架、Waymo 城市扩张、Tesla 州批准地图、AV 天候限制、人才战争、法规日历、机器人出租车费率定价、数据飞轮比较、人形机器人部署追踪、供应链分析、消费者采用需求、Waymo 估值与 IPO 分析、软件架构深度解析,以及 FSD 时间线历史。

本文新增了 AI 训练基础设施维度:每家公司部署了哪些训练算力、其车内推理硬件如何比较,以及为何训练数据量与训练算力容量的交互作用是 Physical AI 质量改善的隐形速度限制器。算力军备竞赛对大多数分析师来说是不可见的——但正是这一层决定了每家公司下一次软件更新的质量天花板上升速度。


来源

标签

请喝咖啡