2026-06-18 — views
2026 Physical AI 算力竞赛 — NVIDIA B200 vs Tesla Dojo vs Google TPU:自动驾驶与机器人训练基础设施基准测试
NVIDIA B200 估计 9 exaFLOPS 驱动几乎所有自动驾驶 AI 训练。Tesla Dojo 押注自研芯片,Waymo 通过 Alphabet 使用 Google TPU。算力决定胜负。
Physical AI 基准测试系列第 205 篇 — 2026 Physical AI 算力竞赛:NVIDIA H100/B200 vs Tesla Dojo vs Google TPU — 自动驾驶与机器人 AI 训练基础设施基准测试
Physical AI 竞赛,从本质上看,是一场算力竞赛。能在单位时间内执行更多训练实验的公司,就能更快地进行迭代、更快地发现更好的驾驶与机器人策略,并最终更快地部署更优质的产品。这是大型语言模型的教训直接应用于物理系统:规模定律有效,而拥有更多训练算力的实体,在中长期时间轴上将胜出。2026 年,三大训练算力生态系正在竞逐 Physical AI 堆栈的主导地位——NVIDIA 的 GPU 集群(H100、H200、Blackwell B200)、Tesla 的自研 Dojo 超级计算机,以及 Google 的 TPU 基础设施(通过 Alphabet 所有权由 Waymo 使用)。理解每个系统的架构、成本结构与战略意涵,是判断谁能在这个十年后半段赢得 AV 与机器人竞赛的关键。
第一节 — 为什么算力是 Physical AI 的决战场
Physical AI 的进步速度与大型语言模型一样受到算力限制。AV 公司能投入到神经网络训练的 GPU 小时越多,脱离率下降越快、模型泛化的地理覆盖范围越广、模型能正确处理的边缘案例尾部越长。规模定律在 Physical AI 中不是希望,而是已观察到的实证规律,每一位认真的竞争者都在围绕它构建自己的路线图。
| 原则 | 说明 | Physical AI 意涵 |
|---|---|---|
| 规模定律适用 | 神经网络性能随着算力、数据与更大模型的增加而可预测地提升(Chinchilla 规模定律;OpenAI 规模论文) | 更多训练算力 + 更多数据 = 更好的驾驶或机器人策略——与 LLM 随规模改善的机制相同 |
| 两种截然不同的算力环境 | 训练算力(集群规模 GPU/TPU,数千颗芯片)vs 推理算力(车载芯片,运行已部署的模型) | 不同的优化目标:训练 = 最大化吞吐量并最小化每次实验的成本;推理 = 最小化每次决策的延迟与功耗 |
| 训练数据量 | Tesla 车队每周估计产生数千万英里的训练数据(估计);处理这些数据需要庞大的训练算力 | 若训练算力不足,数据飞轮就会减速——收集的数据无法及时处理;数据量优势将被白白浪费 |
| 迭代速度的复利效应 | 更快的训练 = 每单位时间更多的实验 = 更快的架构发现;2-3 年内,这种复利将带来可观的模型质量差距 | 每美元能执行 3 倍训练实验的公司,发现更好策略的速度快 3 倍;复利在 24-36 个月内产生巨大差距 |
| 推理延迟攸关安全 | 时速 60 英里下,100ms 的感知延迟 = 2.7 米的盲行距离 | 车载推理必须足够快速,以便在车辆行驶危险距离之前对道路危险做出反应 |
训练算力是从数据中构建 AV 与机器人 AI 模型的”实验室”。它在数据中心的大型 GPU 或 TPU 集群上运行——数千至数万颗芯片。这场竞赛的核心在于:每 FLOP 的成本、集群吞吐量、互联带宽,以及大型模型所需的内存容量。Physical AI 模型通常规模庞大:基于 Transformer 的感知模型、机器人操作的扩散策略、端到端的视频到动作神经网络。在这些模型上、针对数十亿个训练帧执行梯度下降,需要以 exaFLOPS 为衡量单位的算力规模。
推理算力是”车辆”端——部署的模型在物理系统上实时运行。对 AV 而言,这是嵌入汽车的芯片,必须在毫秒内处理八路摄像头的图像、运行完整神经网络,并输出转向、加速与制动指令。Tesla FSD HW4 芯片(估计 350+ TOPS(估计))和 Waymo 的车载算力(依世代不同采用 NVIDIA DRIVE 或自研方案)构成这场竞赛的推理端。
AMD 因素真实存在但在 2026 年仍居次要地位。AMD MI300X 提供 192 GB HBM3 内存(多于 H100 的 80 GB)和估计 2.6 exaFLOPS FP8(估计)——具竞争力的原始规格。但 CUDA 生态系统的锁定效应使切换成本高昂。几乎所有 AV 训练代码都是为 CUDA 编写的;AMD 的 ROCm 软件栈成熟度较低。部分 AV 公司可能基于成本考量使用 AMD 集群,但 NVIDIA 生态系统主导地位是 2026 年业界的默认选择。
第二节 — NVIDIA 在 AV 与机器人训练集群的主导地位
NVIDIA 为几乎所有没有自研训练芯片的 AV 与机器人公司提供训练算力基础设施。H100、H200 和 Blackwell B200 构成标准堆栈。NVIDIA 的 Isaac 仿真套件(Isaac Lab、Isaac Gym)为机器人训练数据生成提供 GPU 加速物理仿真。DRIVE 平台则为没有自研芯片的 AV 公司提供车载推理。
| NVIDIA 芯片 | 规格 | Physical AI 应用场景 | 价格 / 供应(估计) |
|---|---|---|---|
| H100 SXM5 | 80 GB HBM3;估计 3.35 exaFLOPS FP8(估计);NVLink 4.0;700W TDP;DGX H100 = 8 颗 H100 | 2024-2025 年几乎所有 AV 公司的主要训练芯片;Waymo、Aurora、Figure AI、Agility、Boston Dynamics Atlas;用于训练感知模型、运动预测、轨迹优化 | 估计每颗 $25K-$30K(估计);DGX H100 系统估计 $200K-$250K(估计);云端 H100:估计 $2-$3/小时/GPU(估计) |
| H200 SXM5 | 141 GB HBM3e(比 H100 多 75% 内存);计算受限工作负载下训练吞吐量与 H100 相同;内存受限任务下带宽优势明显 | 大型模型 Physical AI 训练(Figure AI 的 VLM、Tesla 的端到端模型等视觉语言模型);更高内存容量支持更大的批次大小 | 估计每颗 $30K-$40K(估计);2024-2025 部署周期中 H100 的继任者 |
| B100 / B200(Blackwell) | B200:估计 192 GB HBM3e(估计);估计 9 exaFLOPS FP8(估计)——接近 H100 的 3 倍;NVLink 5.0 | 下一代 AV 训练;Figure AI、Tesla、Aurora 可能在 2025-2026 年将训练集群过渡到 Blackwell;每颗芯片 3 倍吞吐量可按比例缩短训练时间或训练更大模型 | 估计每颗 $35K-$45K(估计);2025-2026 年产能爬坡;Blackwell 早期供不应求 |
| Jetson AGX Orin(推理) | 275 TOPS 车载推理平台;64 GB LPDDR5;专为边缘 AI 推理设计 | Agility Robotics Digit 使用 Jetson 级算力;Boston Dynamics Atlas 开发;Waymo 和 Tesla 车辆未采用(两者均使用自研芯片) | 估计开发者套件 $1,099(估计);量产模块定价更低 |
| NVIDIA DRIVE 平台 | DRIVE Orin:254 TOPS/颗;DRIVE Thor(继任):估计 2,000 TOPS(估计) | Waymo Gen 5 据报使用 NVIDIA 硬件;多家 AV 初创使用 DRIVE 平台;没有自研芯片的公司的标准 AV 推理算力 | DRIVE Orin 量产定价估计 $500-$2,000/车(估计);DRIVE Thor 定价估计更高 |
| NVIDIA Isaac(机器人) | Isaac ROS:机器人中间件;Isaac Lab:强化学习仿真框架;Isaac Gym:GPU 加速物理仿真 | Figure AI、Agility Robotics 等使用 NVIDIA Isaac 仿真堆栈生成合成训练数据;GPU 加速仿真能产生比实体采集更多样的训练场景 | 软件:开源;硬件:Isaac 仿真工作负载所需的标准 GPU 集群 |
在集群规模下,经济影响相当显著。一个 10,000 颗 H100 的集群——认真进行 AV 训练所需的规模——仅硬件成本就估计 $2.5 亿-$3 亿美元(估计)。转向 Blackwell B200(估计每颗 9 exaFLOPS vs H100 的估计 3.35 exaFLOPS)意味着以相同资本支出获得 3 倍的训练吞吐量,或以大约三分之一的硬件数量实现相同吞吐量。这就是为什么 B200 的供应情况和定价是 2025-2026 年 Physical AI 竞赛中最具战略意义的变数之一。
第三节 — Tesla Dojo:自研训练基础设施
Tesla 的 Dojo 超级计算机是 Physical AI 领域最雄心勃勃的算力基础设施差异化布局。Tesla 没有租用 NVIDIA GPU 或使用云端 TPU,而是打造了自研训练芯片(D1)、自研训练磁贴(25 颗 D1 芯片)和自研训练机柜(ExaPOD,120 个磁贴)。战略逻辑在于:Tesla 的特定训练工作负载——处理来自 600 万辆以上车队的数亿个行车记录仪视频片段——足够专业化,以至于针对此工作负载优化的专用芯片,在这项特定任务上的每 FLOP 成本将优于通用 GPU 训练。
| Dojo 维度 | 现状 | 战略意涵 | 风险 / 不确定性 |
|---|---|---|---|
| D1 芯片架构 | TSMC 7nm 制程;估计每颗 362 TFLOPS FP32(估计);每个训练磁贴 25 颗 D1;磁贴内高带宽芯片对芯片互联;专为视频输入神经网络训练设计 | D1 架构针对 Tesla 特定工作负载优化:处理数百万小时的行车记录仪视频用于 FSD 神经网络训练;磁贴内芯片对芯片互联带宽(估计约 10 TB/s)针对视频训练的梯度同步模式进行调优 | D1 的性能优势具工作负载特异性;对于通用 LLM 训练,H100 或 B200 更优;对于 Tesla 的视频密集工作负载,D1 的互联带宽可能是优化所在 |
| ExaPOD 与集群规模 | 一个训练磁贴 = 25 颗 D1;一个 ExaPOD 机柜 = 120 个训练磁贴 = 3,000 颗 D1;多个 ExaPOD 机柜构成 Dojo 超级计算机集群;Tesla 目标每个 ExaPOD 训练容量估计超过 1 exaFLOP(估计) | 在 exaFLOP 规模下,Dojo 每天能处理比 Tesla 先前基于 NVIDIA 的集群显著更多的 FSD 训练数据;更高的训练吞吐量带来更多模型迭代和更快的脱离率改善 | Dojo 实际部署容量和每个 ExaPOD 的利用率未经公开确认;Tesla 提出了 exaFLOP 目标,但精确的规模化运营状态为(估计) |
| 每 FLOP 成本 vs NVIDIA | Tesla 的论点:Dojo 的每 FLOP 成本低于为视频处理工作负载租用 NVIDIA H100;如果 D1 对视频的每 FLOP 成本比 H100 低估计 30-50%(估计),在一次 10-exaFLOP 训练中,Dojo 可为 Tesla 节省估计 $1 亿-$10 亿(估计) | Dojo 的成本优势(如果属实)在 Tesla 的整个生命周期中复利累积:每次实验的训练成本更低 → 每笔预算更多的迭代 → 更快的模型改善 → 更好的 FSD → 更高的附加率 → 更多收入 → 更多训练数据 | 成本优势是 Tesla 的论点,尚未经过独立验证;NVIDIA 也通过 H100 和 B200 的竞争降低了有效云端定价;实际 Dojo 成本优势可能小于所声称的 |
| 训练数据飞轮 | Tesla 600 万辆以上具备 FSD 的车辆每周产生估计数千万英里的训练数据(估计);没有消费者汽车车队的竞争者无法复制这一数据量;Dojo 是这个独特大型数据集的处理基础设施 | Waymo 的训练数据在数量上小一到两个数量级(估计 3000 万英里以上的商业无人驾驶里程 vs 估计 60 亿英里以上的 Tesla 监督里程(估计)) | Tesla 的数据是监督数据(人工操作),不是无人驾驶数据;模型从人类驾驶行为中学习,其中包含人类驾驶错误作为训练信号 |
| Dojo vs 租用 NVIDIA(战略选择) | Tesla 选择构建自研训练基础设施而非租用云端 NVIDIA GPU;高资本、高风险、高潜在回报的策略;如果 Dojo 按设计运作,Tesla 在 5-10 年内节省数十亿美元的训练成本 | 构建 vs 租用的决策被业界密切关注:如果 Dojo 成功,其他 AV 公司可能跟进;如果 Dojo 表现不及 NVIDIA,则验证了所有竞争者的租用 NVIDIA 路线 | Tesla 已表示将继续投资 Dojo;无论近期相对 NVIDIA 的表现如何,该策略都不会被放弃 |
第四节 — Waymo、Google TPU 与竞争对手训练基础设施
Waymo 的算力优势是 AV 领域讨论最少但可能最持久的优势。作为 Alphabet 的子公司,Waymo 可以获得 Google 的 TPU 基础设施——全球最成熟、最具成本效益的 AI 训练平台之一——且其条款未公开披露,但几乎可以确定比公共云端市场费率更为优惠。这是任何 AV 初创公司在不收购 Google 的情况下无法复制的结构性优势。
| 算力方案 | 使用者 | 训练能力 | Physical AI 相关性 |
|---|---|---|---|
| Google TPU v5e / v5p(Waymo) | Waymo(通过 Alphabet);Google 内部 AI 项目;竞争对手通常无法使用 | TPU v5p:估计每颗 459 TFLOPS BF16(估计);在大型 Google TPU 集群中部署(数千颗芯片) | Waymo 通过 Alphabet 获得的 TPU 访问权是相对必须租用公共云端 GPU 的竞争对手的结构性优势;成本实际上由 Alphabet 的基础设施投资补贴 |
| NVIDIA H100 / B200 集群(Aurora、Figure AI、Agility 等) | Aurora(AV 卡车);Figure AI(人形机器人,通过 OpenAI GPU 访问);Agility Robotics;Boston Dynamics;大多数没有自研算力的 AV 初创 | H100:估计 3.35 exaFLOPS FP8(估计);B200:估计 9 exaFLOPS FP8(估计);行业标准训练平台;所有为 CUDA 编写的 Physical AI 训练代码原生运行 | 使用租用 NVIDIA H100 / B200 的竞争者支付市场费率(估计每 H100 $2-3/小时(估计));在大规模训练中,这是相当可观的运营支出 |
| AMD MI300X(新兴) | 部分数据中心运营商;潜在的成本意识型 AV 公司 | MI300X:192 GB HBM3(H100 80 GB 的 2.4 倍);估计 2.6 exaFLOPS FP8(估计) | AMD MI300X 技术上具竞争力,但 CUDA 生态系统锁定限制了在 Physical AI 中的采用;所有主要 AV 训练代码库均针对 CUDA 优化 |
| Tesla FSD 芯片(车载推理) | Tesla 车辆(HW3、HW4);Tesla 硅芯片团队内部设计 | HW3:144 TOPS(每辆车两颗芯片);HW4:估计 350+ TOPS(估计);针对 Tesla FSD 神经网络推理优化的自定义架构 | 专为 Tesla FSD 模型设计的车载推理芯片:以低延迟实时处理 8 路摄像头图像通过神经网络;自研芯片相比使用 NVIDIA DRIVE 平台实现更紧密的硬件-软件协同设计 |
| Waymo 自研车载芯片(Gen 6) | Waymo Gen 5 和 Gen 6 车辆 | Waymo 未完整公开披露车载算力细节;Gen 5 捷豹 I-PACE 据报使用 NVIDIA 硬件;Gen 6 专用车型可能使用 Waymo 自研芯片 | Waymo 的 Gen 6 车型是优化车载算力的机会:自研芯片降低成本(相比 NVIDIA DRIVE 授权费用)、降低功耗,并为 Waymo 特定的传感器组合实现硬件-软件协同设计 |
| 仿真基础设施 | 所有主要 Physical AI 公司 | NVIDIA Isaac Gym 和 Isaac Lab(Agility、Figure、Boston Dynamics 等);Waymo 的 CarCraft 仿真器;Tesla 自研仿真堆栈;Aurora 的 TORCH 仿真器 | 仿真是 Physical AI 训练数据的力量倍增器:GPU 加速仿真生成合成训练场景的速度比实体数据采集快几个数量级;Waymo 的 CarCraft 仿真器每年生成数十亿个仿真场景 |
第五节 — Physical AI 算力基准测试计分卡
| 算力维度 | Waymo(Alphabet) | Tesla | Aurora | Figure AI | 2028 年展望 |
|---|---|---|---|---|---|
| 训练基础设施 | Google TPU 集群(通过 Alphabet)+ NVIDIA GPU;来自 Alphabet 补贴基础设施的结构性成本优势 | Dojo(自研 D1 芯片)目标 exaFLOP 规模;构建 vs 租用的战略押注;如果 Dojo 按设计运作,Tesla 视频处理工作负载的每 FLOP 成本最低 | 租用 NVIDIA H100 / B200 集群;无自研训练基础设施;训练成本是重要的运营支出 | 通过 OpenAI 合作伙伴关系使用 NVIDIA GPU;OpenAI 作为 Figure-OpenAI 合作的一部分提供 GPU 访问 | Tesla 的 Dojo 押注将更加清晰;如果 Dojo 以具竞争力的成本达到多 exaFLOP 规模,Tesla 拥有结构性训练成本优势;Waymo 的 Google TPU 访问权无论 Dojo 结果如何都持久存在 |
| 车载推理 | NVIDIA DRIVE 或 Waymo 自研芯片(Gen 6 细节未完整披露(估计)) | Tesla FSD HW4 芯片:估计 350+ TOPS(估计);内部设计;硬件-软件协同设计优势 | Aurora Driver:基于 NVIDIA 的算力;系统为 Class 8 卡车整合设计;估计每辆卡车有 3+ 个冗余算力单元(估计) | 不适用(人形机器人,非车辆);Figure 02 使用自研算力;Agility Robotics Digit 使用 Jetson 级车载算力 | Tesla 的自研芯片路线可能延续到 HW5;Waymo Gen 6 自研芯片部署缩小了与基于 NVIDIA 的 Gen 5 的车载算力差距 |
| 仿真基础设施 | CarCraft:Waymo 自研仿真器;每年数十亿个仿真场景;AV 业界最成熟的仿真堆栈之一 | 自研仿真堆栈;Tesla 以现实世界数据为主要训练信号,仿真为补充 | TORCH 仿真器;GPU 加速;Aurora 使用仿真处理实体测试里程未覆盖的边缘案例 | NVIDIA Isaac Lab + Figure 自研机器人仿真;物理精确的人形任务仿真 | 仿真质量越来越关键,因为单靠实体数据采集无法高效覆盖长尾边缘案例 |
| 数据量(训练数据) | 估计 3000 万英里以上商业无人驾驶里程(估计);最高质量的无人驾驶数据;但在三大 AV 玩家中数据量最小 | 估计 60 亿英里以上监督里程(估计);AV 中最大的训练数据集;通过 600 万辆以上车队的数据飞轮 | 自 2025 年 4 月商业启动以来估计 1000 万英里以上高速公路商业里程(估计) | 机器人任务数据:早期阶段;NVIDIA Isaac 仿真填补实体数据缺口;Figure AI 在 BMW 工厂部署以生成现实世界机器人任务数据 | Tesla 的数据量优势具结构性且持续增长;Waymo 的无人驾驶数据质量对于无人驾驶模型训练更优 |
| 算力整体评估 | Physical AI 算力竞赛尚未决出胜负。NVIDIA 仍是几乎所有 Physical AI 公司训练基础设施的主要提供者——这一地位创造了巨大收入并强化了 NVIDIA 的生态系统护城河。Tesla 的 Dojo 押注是 Physical AI 中最雄心勃勃的算力基础设施差异化,论点可信但在 Tesla 目标的完整规模上尚未得到验证。Waymo 的 Google TPU 访问权是 AV 训练算力中最不显眼但最持久的结构性优势——Alphabet 的 TPU 基础设施是全球最成熟、最具成本效益的之一,Waymo 以补贴费率获得它是一个被低估的竞争护城河。对于追踪 Physical AI 算力竞赛的投资者,要关注的 KPI 不是原始 FLOP 数——而是每美元的训练吞吐量以及由此带来的模型改善速度,以脱离率下降和地理扩张速度衡量。 |
注意: 标记为”(估计)“的数字是基于 2026 年中期公开可用信息的方向性估计。硬件定价、集群规模经济和训练算力容量未由相关公司完整公开披露。本文不构成投资建议。
来源
- NVIDIA H100 与 B200 架构规格 — NVIDIA ↗
- Tesla Dojo AI 训练基础设施 — Tesla AI ↗
- Google TPU v5 云端定价 — Google Cloud ↗
- AMD MI300X 架构 — AMD ↗