2026-06-18 — views

2026 Physical AI 算力竞赛 — NVIDIA B200 vs Tesla Dojo vs Google TPU：自动驾驶与机器人训练基础设施基准测试

NVIDIA B200 估计 9 exaFLOPS 驱动几乎所有自动驾驶 AI 训练。Tesla Dojo 押注自研芯片，Waymo 通过 Alphabet 使用 Google TPU。算力决定胜负。

Physical AI 基准测试系列第 205 篇 — 2026 Physical AI 算力竞赛：NVIDIA H100/B200 vs Tesla Dojo vs Google TPU — 自动驾驶与机器人 AI 训练基础设施基准测试

Physical AI 竞赛，从本质上看，是一场算力竞赛。能在单位时间内执行更多训练实验的公司，就能更快地进行迭代、更快地发现更好的驾驶与机器人策略，并最终更快地部署更优质的产品。这是大型语言模型的教训直接应用于物理系统：规模定律有效，而拥有更多训练算力的实体，在中长期时间轴上将胜出。2026 年，三大训练算力生态系正在竞逐 Physical AI 堆栈的主导地位——NVIDIA 的 GPU 集群（H100、H200、Blackwell B200）、Tesla 的自研 Dojo 超级计算机，以及 Google 的 TPU 基础设施（通过 Alphabet 所有权由 Waymo 使用）。理解每个系统的架构、成本结构与战略意涵，是判断谁能在这个十年后半段赢得 AV 与机器人竞赛的关键。

第一节 — 为什么算力是 Physical AI 的决战场

Physical AI 的进步速度与大型语言模型一样受到算力限制。AV 公司能投入到神经网络训练的 GPU 小时越多，脱离率下降越快、模型泛化的地理覆盖范围越广、模型能正确处理的边缘案例尾部越长。规模定律在 Physical AI 中不是希望，而是已观察到的实证规律，每一位认真的竞争者都在围绕它构建自己的路线图。

原则	说明	Physical AI 意涵
规模定律适用	神经网络性能随着算力、数据与更大模型的增加而可预测地提升（Chinchilla 规模定律；OpenAI 规模论文）	更多训练算力 + 更多数据 = 更好的驾驶或机器人策略——与 LLM 随规模改善的机制相同
两种截然不同的算力环境	训练算力（集群规模 GPU/TPU，数千颗芯片）vs 推理算力（车载芯片，运行已部署的模型）	不同的优化目标：训练 = 最大化吞吐量并最小化每次实验的成本；推理 = 最小化每次决策的延迟与功耗
训练数据量	Tesla 车队每周估计产生数千万英里的训练数据（估计）；处理这些数据需要庞大的训练算力	若训练算力不足，数据飞轮就会减速——收集的数据无法及时处理；数据量优势将被白白浪费
迭代速度的复利效应	更快的训练 = 每单位时间更多的实验 = 更快的架构发现；2-3 年内，这种复利将带来可观的模型质量差距	每美元能执行 3 倍训练实验的公司，发现更好策略的速度快 3 倍；复利在 24-36 个月内产生巨大差距
推理延迟攸关安全	时速 60 英里下，100ms 的感知延迟 = 2.7 米的盲行距离	车载推理必须足够快速，以便在车辆行驶危险距离之前对道路危险做出反应

训练算力是从数据中构建 AV 与机器人 AI 模型的”实验室”。它在数据中心的大型 GPU 或 TPU 集群上运行——数千至数万颗芯片。这场竞赛的核心在于：每 FLOP 的成本、集群吞吐量、互联带宽，以及大型模型所需的内存容量。Physical AI 模型通常规模庞大：基于 Transformer 的感知模型、机器人操作的扩散策略、端到端的视频到动作神经网络。在这些模型上、针对数十亿个训练帧执行梯度下降，需要以 exaFLOPS 为衡量单位的算力规模。

推理算力是”车辆”端——部署的模型在物理系统上实时运行。对 AV 而言，这是嵌入汽车的芯片，必须在毫秒内处理八路摄像头的图像、运行完整神经网络，并输出转向、加速与制动指令。Tesla FSD HW4 芯片（估计 350+ TOPS（估计））和 Waymo 的车载算力（依世代不同采用 NVIDIA DRIVE 或自研方案）构成这场竞赛的推理端。

AMD 因素真实存在但在 2026 年仍居次要地位。AMD MI300X 提供 192 GB HBM3 内存（多于 H100 的 80 GB）和估计 2.6 exaFLOPS FP8（估计）——具竞争力的原始规格。但 CUDA 生态系统的锁定效应使切换成本高昂。几乎所有 AV 训练代码都是为 CUDA 编写的；AMD 的 ROCm 软件栈成熟度较低。部分 AV 公司可能基于成本考量使用 AMD 集群，但 NVIDIA 生态系统主导地位是 2026 年业界的默认选择。

第二节 — NVIDIA 在 AV 与机器人训练集群的主导地位

NVIDIA 为几乎所有没有自研训练芯片的 AV 与机器人公司提供训练算力基础设施。H100、H200 和 Blackwell B200 构成标准堆栈。NVIDIA 的 Isaac 仿真套件（Isaac Lab、Isaac Gym）为机器人训练数据生成提供 GPU 加速物理仿真。DRIVE 平台则为没有自研芯片的 AV 公司提供车载推理。

NVIDIA 芯片	规格	Physical AI 应用场景	价格 / 供应（估计）
H100 SXM5	80 GB HBM3；估计 3.35 exaFLOPS FP8（估计）；NVLink 4.0；700W TDP；DGX H100 = 8 颗 H100	2024-2025 年几乎所有 AV 公司的主要训练芯片；Waymo、Aurora、Figure AI、Agility、Boston Dynamics Atlas；用于训练感知模型、运动预测、轨迹优化	估计每颗 $25K-$30K（估计）；DGX H100 系统估计 $200K-$250K（估计）；云端 H100：估计 $2-$3/小时/GPU（估计）
H200 SXM5	141 GB HBM3e（比 H100 多 75% 内存）；计算受限工作负载下训练吞吐量与 H100 相同；内存受限任务下带宽优势明显	大型模型 Physical AI 训练（Figure AI 的 VLM、Tesla 的端到端模型等视觉语言模型）；更高内存容量支持更大的批次大小	估计每颗 $30K-$40K（估计）；2024-2025 部署周期中 H100 的继任者
B100 / B200（Blackwell）	B200：估计 192 GB HBM3e（估计）；估计 9 exaFLOPS FP8（估计）——接近 H100 的 3 倍；NVLink 5.0	下一代 AV 训练；Figure AI、Tesla、Aurora 可能在 2025-2026 年将训练集群过渡到 Blackwell；每颗芯片 3 倍吞吐量可按比例缩短训练时间或训练更大模型	估计每颗 $35K-$45K（估计）；2025-2026 年产能爬坡；Blackwell 早期供不应求
Jetson AGX Orin（推理）	275 TOPS 车载推理平台；64 GB LPDDR5；专为边缘 AI 推理设计	Agility Robotics Digit 使用 Jetson 级算力；Boston Dynamics Atlas 开发；Waymo 和 Tesla 车辆未采用（两者均使用自研芯片）	估计开发者套件 $1,099（估计）；量产模块定价更低
NVIDIA DRIVE 平台	DRIVE Orin：254 TOPS/颗；DRIVE Thor（继任）：估计 2,000 TOPS（估计）	Waymo Gen 5 据报使用 NVIDIA 硬件；多家 AV 初创使用 DRIVE 平台；没有自研芯片的公司的标准 AV 推理算力	DRIVE Orin 量产定价估计 $500-$2,000/车（估计）；DRIVE Thor 定价估计更高
NVIDIA Isaac（机器人）	Isaac ROS：机器人中间件；Isaac Lab：强化学习仿真框架；Isaac Gym：GPU 加速物理仿真	Figure AI、Agility Robotics 等使用 NVIDIA Isaac 仿真堆栈生成合成训练数据；GPU 加速仿真能产生比实体采集更多样的训练场景	软件：开源；硬件：Isaac 仿真工作负载所需的标准 GPU 集群

在集群规模下，经济影响相当显著。一个 10,000 颗 H100 的集群——认真进行 AV 训练所需的规模——仅硬件成本就估计 $2.5 亿-$3 亿美元（估计）。转向 Blackwell B200（估计每颗 9 exaFLOPS vs H100 的估计 3.35 exaFLOPS）意味着以相同资本支出获得 3 倍的训练吞吐量，或以大约三分之一的硬件数量实现相同吞吐量。这就是为什么 B200 的供应情况和定价是 2025-2026 年 Physical AI 竞赛中最具战略意义的变数之一。

第三节 — Tesla Dojo：自研训练基础设施

Tesla 的 Dojo 超级计算机是 Physical AI 领域最雄心勃勃的算力基础设施差异化布局。Tesla 没有租用 NVIDIA GPU 或使用云端 TPU，而是打造了自研训练芯片（D1）、自研训练磁贴（25 颗 D1 芯片）和自研训练机柜（ExaPOD，120 个磁贴）。战略逻辑在于：Tesla 的特定训练工作负载——处理来自 600 万辆以上车队的数亿个行车记录仪视频片段——足够专业化，以至于针对此工作负载优化的专用芯片，在这项特定任务上的每 FLOP 成本将优于通用 GPU 训练。

Dojo 维度	现状	战略意涵	风险 / 不确定性
D1 芯片架构	TSMC 7nm 制程；估计每颗 362 TFLOPS FP32（估计）；每个训练磁贴 25 颗 D1；磁贴内高带宽芯片对芯片互联；专为视频输入神经网络训练设计	D1 架构针对 Tesla 特定工作负载优化：处理数百万小时的行车记录仪视频用于 FSD 神经网络训练；磁贴内芯片对芯片互联带宽（估计约 10 TB/s）针对视频训练的梯度同步模式进行调优	D1 的性能优势具工作负载特异性；对于通用 LLM 训练，H100 或 B200 更优；对于 Tesla 的视频密集工作负载，D1 的互联带宽可能是优化所在
ExaPOD 与集群规模	一个训练磁贴 = 25 颗 D1；一个 ExaPOD 机柜 = 120 个训练磁贴 = 3,000 颗 D1；多个 ExaPOD 机柜构成 Dojo 超级计算机集群；Tesla 目标每个 ExaPOD 训练容量估计超过 1 exaFLOP（估计）	在 exaFLOP 规模下，Dojo 每天能处理比 Tesla 先前基于 NVIDIA 的集群显著更多的 FSD 训练数据；更高的训练吞吐量带来更多模型迭代和更快的脱离率改善	Dojo 实际部署容量和每个 ExaPOD 的利用率未经公开确认；Tesla 提出了 exaFLOP 目标，但精确的规模化运营状态为（估计）
每 FLOP 成本 vs NVIDIA	Tesla 的论点：Dojo 的每 FLOP 成本低于为视频处理工作负载租用 NVIDIA H100；如果 D1 对视频的每 FLOP 成本比 H100 低估计 30-50%（估计），在一次 10-exaFLOP 训练中，Dojo 可为 Tesla 节省估计 $1 亿-$10 亿（估计）	Dojo 的成本优势（如果属实）在 Tesla 的整个生命周期中复利累积：每次实验的训练成本更低 → 每笔预算更多的迭代 → 更快的模型改善 → 更好的 FSD → 更高的附加率 → 更多收入 → 更多训练数据	成本优势是 Tesla 的论点，尚未经过独立验证；NVIDIA 也通过 H100 和 B200 的竞争降低了有效云端定价；实际 Dojo 成本优势可能小于所声称的
训练数据飞轮	Tesla 600 万辆以上具备 FSD 的车辆每周产生估计数千万英里的训练数据（估计）；没有消费者汽车车队的竞争者无法复制这一数据量；Dojo 是这个独特大型数据集的处理基础设施	Waymo 的训练数据在数量上小一到两个数量级（估计 3000 万英里以上的商业无人驾驶里程 vs 估计 60 亿英里以上的 Tesla 监督里程（估计））	Tesla 的数据是监督数据（人工操作），不是无人驾驶数据；模型从人类驾驶行为中学习，其中包含人类驾驶错误作为训练信号
Dojo vs 租用 NVIDIA（战略选择）	Tesla 选择构建自研训练基础设施而非租用云端 NVIDIA GPU；高资本、高风险、高潜在回报的策略；如果 Dojo 按设计运作，Tesla 在 5-10 年内节省数十亿美元的训练成本	构建 vs 租用的决策被业界密切关注：如果 Dojo 成功，其他 AV 公司可能跟进；如果 Dojo 表现不及 NVIDIA，则验证了所有竞争者的租用 NVIDIA 路线	Tesla 已表示将继续投资 Dojo；无论近期相对 NVIDIA 的表现如何，该策略都不会被放弃

第四节 — Waymo、Google TPU 与竞争对手训练基础设施

Waymo 的算力优势是 AV 领域讨论最少但可能最持久的优势。作为 Alphabet 的子公司，Waymo 可以获得 Google 的 TPU 基础设施——全球最成熟、最具成本效益的 AI 训练平台之一——且其条款未公开披露，但几乎可以确定比公共云端市场费率更为优惠。这是任何 AV 初创公司在不收购 Google 的情况下无法复制的结构性优势。

算力方案	使用者	训练能力	Physical AI 相关性
Google TPU v5e / v5p（Waymo）	Waymo（通过 Alphabet）；Google 内部 AI 项目；竞争对手通常无法使用	TPU v5p：估计每颗 459 TFLOPS BF16（估计）；在大型 Google TPU 集群中部署（数千颗芯片）	Waymo 通过 Alphabet 获得的 TPU 访问权是相对必须租用公共云端 GPU 的竞争对手的结构性优势；成本实际上由 Alphabet 的基础设施投资补贴
NVIDIA H100 / B200 集群（Aurora、Figure AI、Agility 等）	Aurora（AV 卡车）；Figure AI（人形机器人，通过 OpenAI GPU 访问）；Agility Robotics；Boston Dynamics；大多数没有自研算力的 AV 初创	H100：估计 3.35 exaFLOPS FP8（估计）；B200：估计 9 exaFLOPS FP8（估计）；行业标准训练平台；所有为 CUDA 编写的 Physical AI 训练代码原生运行	使用租用 NVIDIA H100 / B200 的竞争者支付市场费率（估计每 H100 $2-3/小时（估计））；在大规模训练中，这是相当可观的运营支出
AMD MI300X（新兴）	部分数据中心运营商；潜在的成本意识型 AV 公司	MI300X：192 GB HBM3（H100 80 GB 的 2.4 倍）；估计 2.6 exaFLOPS FP8（估计）	AMD MI300X 技术上具竞争力，但 CUDA 生态系统锁定限制了在 Physical AI 中的采用；所有主要 AV 训练代码库均针对 CUDA 优化
Tesla FSD 芯片（车载推理）	Tesla 车辆（HW3、HW4）；Tesla 硅芯片团队内部设计	HW3：144 TOPS（每辆车两颗芯片）；HW4：估计 350+ TOPS（估计）；针对 Tesla FSD 神经网络推理优化的自定义架构	专为 Tesla FSD 模型设计的车载推理芯片：以低延迟实时处理 8 路摄像头图像通过神经网络；自研芯片相比使用 NVIDIA DRIVE 平台实现更紧密的硬件-软件协同设计
Waymo 自研车载芯片（Gen 6）	Waymo Gen 5 和 Gen 6 车辆	Waymo 未完整公开披露车载算力细节；Gen 5 捷豹 I-PACE 据报使用 NVIDIA 硬件；Gen 6 专用车型可能使用 Waymo 自研芯片	Waymo 的 Gen 6 车型是优化车载算力的机会：自研芯片降低成本（相比 NVIDIA DRIVE 授权费用）、降低功耗，并为 Waymo 特定的传感器组合实现硬件-软件协同设计
仿真基础设施	所有主要 Physical AI 公司	NVIDIA Isaac Gym 和 Isaac Lab（Agility、Figure、Boston Dynamics 等）；Waymo 的 CarCraft 仿真器；Tesla 自研仿真堆栈；Aurora 的 TORCH 仿真器	仿真是 Physical AI 训练数据的力量倍增器：GPU 加速仿真生成合成训练场景的速度比实体数据采集快几个数量级；Waymo 的 CarCraft 仿真器每年生成数十亿个仿真场景

第五节 — Physical AI 算力基准测试计分卡

算力维度	Waymo（Alphabet）	Tesla	Aurora	Figure AI	2028 年展望
训练基础设施	Google TPU 集群（通过 Alphabet）+ NVIDIA GPU；来自 Alphabet 补贴基础设施的结构性成本优势	Dojo（自研 D1 芯片）目标 exaFLOP 规模；构建 vs 租用的战略押注；如果 Dojo 按设计运作，Tesla 视频处理工作负载的每 FLOP 成本最低	租用 NVIDIA H100 / B200 集群；无自研训练基础设施；训练成本是重要的运营支出	通过 OpenAI 合作伙伴关系使用 NVIDIA GPU；OpenAI 作为 Figure-OpenAI 合作的一部分提供 GPU 访问	Tesla 的 Dojo 押注将更加清晰；如果 Dojo 以具竞争力的成本达到多 exaFLOP 规模，Tesla 拥有结构性训练成本优势；Waymo 的 Google TPU 访问权无论 Dojo 结果如何都持久存在
车载推理	NVIDIA DRIVE 或 Waymo 自研芯片（Gen 6 细节未完整披露（估计））	Tesla FSD HW4 芯片：估计 350+ TOPS（估计）；内部设计；硬件-软件协同设计优势	Aurora Driver：基于 NVIDIA 的算力；系统为 Class 8 卡车整合设计；估计每辆卡车有 3+ 个冗余算力单元（估计）	不适用（人形机器人，非车辆）；Figure 02 使用自研算力；Agility Robotics Digit 使用 Jetson 级车载算力	Tesla 的自研芯片路线可能延续到 HW5；Waymo Gen 6 自研芯片部署缩小了与基于 NVIDIA 的 Gen 5 的车载算力差距
仿真基础设施	CarCraft：Waymo 自研仿真器；每年数十亿个仿真场景；AV 业界最成熟的仿真堆栈之一	自研仿真堆栈；Tesla 以现实世界数据为主要训练信号，仿真为补充	TORCH 仿真器；GPU 加速；Aurora 使用仿真处理实体测试里程未覆盖的边缘案例	NVIDIA Isaac Lab + Figure 自研机器人仿真；物理精确的人形任务仿真	仿真质量越来越关键，因为单靠实体数据采集无法高效覆盖长尾边缘案例
数据量（训练数据）	估计 3000 万英里以上商业无人驾驶里程（估计）；最高质量的无人驾驶数据；但在三大 AV 玩家中数据量最小	估计 60 亿英里以上监督里程（估计）；AV 中最大的训练数据集；通过 600 万辆以上车队的数据飞轮	自 2025 年 4 月商业启动以来估计 1000 万英里以上高速公路商业里程（估计）	机器人任务数据：早期阶段；NVIDIA Isaac 仿真填补实体数据缺口；Figure AI 在 BMW 工厂部署以生成现实世界机器人任务数据	Tesla 的数据量优势具结构性且持续增长；Waymo 的无人驾驶数据质量对于无人驾驶模型训练更优
算力整体评估	Physical AI 算力竞赛尚未决出胜负。NVIDIA 仍是几乎所有 Physical AI 公司训练基础设施的主要提供者——这一地位创造了巨大收入并强化了 NVIDIA 的生态系统护城河。Tesla 的 Dojo 押注是 Physical AI 中最雄心勃勃的算力基础设施差异化，论点可信但在 Tesla 目标的完整规模上尚未得到验证。Waymo 的 Google TPU 访问权是 AV 训练算力中最不显眼但最持久的结构性优势——Alphabet 的 TPU 基础设施是全球最成熟、最具成本效益的之一，Waymo 以补贴费率获得它是一个被低估的竞争护城河。对于追踪 Physical AI 算力竞赛的投资者，要关注的 KPI 不是原始 FLOP 数——而是每美元的训练吞吐量以及由此带来的模型改善速度，以脱离率下降和地理扩张速度衡量。

注意： 标记为”（估计）“的数字是基于 2026 年中期公开可用信息的方向性估计。硬件定价、集群规模经济和训练算力容量未由相关公司完整公开披露。本文不构成投资建议。