2026-06-17 — views
实体 AI 的算力 — 驱动机器人量产的芯片全览(2026 年中)
全面基准测试驱动自动驾驶汽车与人形机器人的推理与训练芯片——Jetson Thor、HW4、Dojo、EyeQ Ultra 等,涵盖 2026 年中最新数据。
算力层是实体 AI 时间表的隐形瓶颈
机器人量产有一道硅基底线。自动驾驶汽车需要在严格功耗预算下实时融合雷达、激光雷达和摄像头数据的车载推理芯片。人形机器人需要能在不足 70 公斤的机体中不插电运行基础模型的边缘处理器。训练这些模型则需要能消化数 TB 机器人示范数据的大规模云端或私有计算集群。
Waymo、Tesla、Figure AI 或任何其他实体 AI 公司的所有时间表预测,本质上都是对可用硅芯片的预测。本文对驱动这个领域的芯片进行基准测试——包括部署在车辆和机器人中的推理硬件,以及背后模型训练所需的算力。
关于 TOPS 的定义说明: Tera-Operations Per Second(TOPS)以 INT8 精度衡量推理工作负载。训练芯片使用不同指标(BF16 或 FP16 的 TFLOPS)。两者不能直接比较——训练和推理是截然不同的工作负载。以下表格将两者分开呈现。
第一节 — 硅芯片基准总表
下表涵盖截至 2026 年中与实体 AI 相关的主要推理芯片。所有 TOPS 数字均为 INT8,除非另有说明。功耗数字为典型工作功耗,除非特别说明为峰值 TDP。“商业状态”表示一般商业可用性;部分芯片仍在配额制度或分阶段推出中。
| 芯片 | 制造商 | TOPS (INT8) | 功耗 (W) | 内存/带宽 | 主要应用 | 商业状态 |
|---|---|---|---|---|---|---|
| Jetson Orin NX | NVIDIA | 100 | 10–25 | 16 GB LPDDR5,102 GB/s | 边缘机器人、无人机、工业 | 一般可用 |
| Jetson Thor | NVIDIA | 800 | ~60 | 128 GB/s(估计) | 下一代人形机器人、高级机器人 | 分阶段 / 配额中 |
| HW4(FSD 电脑) | Tesla | 1,000+(Tesla 声称) | ~50–80(每颗) | 定制 LPDDR5 | Tesla 车辆自动驾驶推理 | 量产中(Model S/X/3/Y/Cybertruck/Cybercab) |
| HW4 双芯片 | Tesla | 2,000+(Tesla 声称) | ~100–160(合计) | 两颗 HW4 并联 | 高冗余 Tesla 车型 | 量产中 |
| Dojo D1 芯片组 | Tesla | 不适用——训练芯片 | ~350(每组) | 每组 900 GB/s | 神经网络训练(非推理) | 仅用于训练集群 |
| Snapdragon Ride Elite | Qualcomm | 700+ | 未完整披露 | 汽车级 ECC LPDDR5 | ADAS、L2+/L3 自动驾驶 | 量产中(OEM 推出中) |
| EyeQ Ultra | Mobileye | 176 | ~10 | 集成式 LPDDR5 | L4 自动驾驶推理 | 2025 年起可用 |
| TPU v5e | 不适用——训练芯片 | ~170(每颗) | HBM2e,每 Pod 1.6 TB/s | 云端模型训练(如 Waymo 神经网络) | 仅限 Google Cloud(非独立销售) |
读表说明: TOPS 数字因各制造商的测量方式不同而有很大差异——Tesla 的 1,000+ 声称使用 Tesla 内部基准方法,可能无法与 NVIDIA 公布的 INT8 数字直接比较。跨厂商 TOPS 比较应视为方向性参考,而非精确数值。功耗效率(TOPS/W)通常是移动和车辆应用更有意义的指标:HW4 约达 12–20 TOPS/W(估计),EyeQ Ultra 约 17 TOPS/W,Jetson Orin NX 依工作点不同约 4–10 TOPS/W。
Tesla Dojo D1: 每组 D1 芯片组在 BF16 精度下提供 362 TFLOPS。Tesla 的 ExaPOD 配置——3,000 组 D1 芯片组加交换矩阵——目标是 100 exaFLOPS 的总训练算力。这是一个训练系统,不是推理芯片,不部署在车辆中。
第二节 — 谁用什么:公司层级的算力堆栈
车辆或机器人中的推理芯片只是图片的一半。训练算力——用于构建模型的云端或私有集群——同样关键。下表将主要实体 AI 公司对应到两个层面。
| 公司 | 车载推理芯片 | 训练算力 | 备注 |
|---|---|---|---|
| Waymo | 定制 ASIC(Waymo Driver 芯片,第 5 代) | Google Cloud TPU v4/v5 集群 | 车载芯片细节有限;Google Cloud 关系提供训练规模 |
| Tesla | HW4(单颗或双颗) | Dojo + NVIDIA H100 集群(过渡中) | 积极垂直整合——正将训练迁移至 Dojo;HW4 为自研 |
| Figure AI | NVIDIA Jetson Thor | NVIDIA DGX / H100 集群 | 基础模型在板外训练;Thor 处理车载推理 |
| Agility Robotics(Digit) | Intel / NVIDIA 边缘计算(混合) | AWS 云端计算 | Amazon 母公司提供 AWS 基础设施;车载芯片细节有限 |
| 1X Technologies | NVIDIA Jetson Thor 平台 | NVIDIA DGX 架构 | OpenAI 合作伙伴关系影响模型训练堆栈 |
| Boston Dynamics(Atlas) | 定制执行器计算 + NVIDIA Isaac 平台 | NVIDIA Isaac Sim / 云端训练 | Isaac 平台用于仿真到真实的迁移 |
| Apptronik(Apollo) | 基于 NVIDIA 的边缘计算 | AWS / NVIDIA(估计) | Google/Samsung 投资;训练堆栈未完整披露 |
此表揭示的信息: Tesla 和 Waymo 在推理和训练两端都已垂直整合或深度合作。人形机器人初创群——Figure、1X、Apptronik——在推理上集中于 NVIDIA Jetson Thor,在训练上集中于 NVIDIA DGX 基础设施。这造成了第五节讨论的单一供应商依赖风险。
第三节 — Tesla 的垂直整合优势
Tesla 在算力层中占据与其他所有实体 AI 公司截然不同的结构性地位。它同时设计部署在车辆中的推理芯片(HW4)和用于构建模型的训练硅芯片(Dojo D1)。没有任何其他实体 AI 公司能同时掌控这个堆栈的两端。
垂直整合为 Tesla 带来什么
不受 NVIDIA 出口限制影响的训练流程。 Dojo D1 芯片组以美国本土工具链和供应链设计制造。当美国政府限制 NVIDIA H100 和 A100 芯片出口至特定市场时,Tesla 构建在 Dojo 上的训练流程不受影响。随着出口管制持续演变,这是一个随时间复利增长的战略不对称性。
车辆规模下的每 TOPS 成本。 HW4 作为 Tesla 车辆生产线的一部分制造并整合。推理算力的成本在车辆硬件利润率中摊提。以第三方组件购买 Mobileye EyeQ Ultra 或 Qualcomm Snapdragon Ride Elite 会增加供应商利润层并形成采购依赖。Tesla 通过自研和整合消除了这两个问题。
训练算力:Dojo vs. NVIDIA H100 集群比较。 Tesla 的 ExaPOD 目标是在 3,000 组 D1 芯片组上达到 100 exaFLOPS 的 BF16 训练算力。一个达到 100 exaFLOPS 的可比 NVIDIA H100 集群需要约 3,100 颗 H100 GPU(每颗在 SXM5 峰值下约提供 32 TFLOPS BF16)。以数据中心定价(估计),该规模的 H100 集群代表数亿美元的硬件加上电力和冷却基础设施。Tesla 的 Dojo 设计旨在以更低的总体拥有成本提供同等规模——虽然这项成本主张的外部验证尚未公开。
权衡: 垂直整合带有工程风险。Dojo 开发花费的时间比最初公开时程更长,Tesla 在过渡期间继续使用 NVIDIA H100 集群进行训练。截至 2026 年中,完全转移到以 Dojo 作为主要训练是一个既定目标,而非已完成的转型。
第四节 — Waymo 的算力堆栈
Waymo 的方式在一个重要方面与 Tesla 相反:它不设计自己的芯片,但通过母公司 Alphabet/Google 深度整合了业界最强大的训练基础设施。
车载推理:Waymo Driver 芯片
Waymo 为车载推理开发了定制 ASIC——第五代 Waymo Driver 芯片。这款芯片的详细规格未公开,这与 Waymo 保护技术差异化的做法一致。从 Waymo 公开通信中可知:
- 该芯片实时处理 Waymo One 传感器套件的传感器融合:摄像头、激光雷达、雷达
- 它在车载执行感知、预测和规划堆栈,实现完全无人驾驶运行
- 每一代芯片相比上一代在功耗效率和处理吞吐量上都有所提升
Waymo 不出售或授权其推理芯片。它是为 Waymo One 车辆专门制造的,不是通用汽车芯片。
训练:Google Cloud TPU 的规模优势
Waymo 在 Google Cloud TPU v4 和 v5 基础设施上训练其神经网络。Google Cloud 的 TPU Pod 配置可达 exaFLOP 规模算力。这使 Waymo 能以反映 Google 母公司关系而非市场价格的成本结构,获得可与任何人形机器人初创通过 NVIDIA 云端实例所能提供的相媲美或超越的训练算力。
结构性含义: Waymo 的训练规模优势不是初创公司通过再融一轮可以复制的。以成本价获取 Google TPU 基础设施是一个结构性护城河。Waymo 的限制不是算力——而是数据多样性(在更多城市、条件和边缘案例中的驾驶里程)和车辆制造规模。
第五节 — NVIDIA 对人形机器人初创的瓶颈
人形机器人初创集中于单一推理平台——NVIDIA Jetson Thor——造成了一个在人形机器人量产讨论中不被广泛提及的供应集中风险。
Thor 为何成为默认选择
Jetson Thor 在商业可用的人形机器人规模边缘计算模组中提供最高的 TOPS/W 比率。以 800 TOPS 和约 60W,它使大型视觉-语言-动作模型的车载推理无需外部算力连线即可实现。NVIDIA 的 Isaac 机器人平台——仿真、训练流程和部署工具——与 Jetson 硬件原生集成。对于想要快速推进而不需自建芯片团队的初创公司,Thor 加 Isaac 是理性的选择。
配额问题
NVIDIA Jetson Thor 是一个高复杂度的系统级模组,与数据中心 GPU 需求竞争 NVIDIA 的内部工程和制造产能。截至 2026 年中,Jetson Thor 据报处于配额状态——即人形机器人制造商的需求超过立即可用的供应。这与新款 Jetson 模组的标准产品生命周期一致:初期产量有限,配额优先顺序由 NVIDIA 管理。
这对量产时间表意味着什么
对于 Figure AI、1X Technologies 和 Apptronik 等依赖 Jetson Thor 作为车载算力的公司——机器人硬件量产在一定程度上受制于 NVIDIA 的产能配额决策。一家公司可以设计最好的人形机器人外框、训练最好的基础模型、签署最好的客户合同,但如果 Thor 模组需要 6–12 个月的交货期,实际生产速率就受硅芯片限制,而非工程能力。
Tesla 和 Waymo 不受此限制。 Tesla 使用 HW4,其自研芯片。Waymo 使用其定制 ASIC。两者都不依赖 NVIDIA 进行车载推理。这个限制完全落在选择了使用商业 NVIDIA 硬件快速通道而非投资定制芯片的人形机器人初创身上——这是早期阶段合理的权衡,但在量产规模上成为瓶颈。
长期解决方案: 达到有意义量产规模的人形机器人将面临芯片自制或外购的决策。进入 C 轮及之后的公司将有资本探索定制 ASIC 开发(一个 3–5 年的计划),或与 NVIDIA 谈判优先配额协议。两者都不是短期解决方案。在 2026–2028 年期间,NVIDIA Thor 配额上限是人形机器人产业能多快扩展的真实限制。
基准背景:这是实体 AI 系列的第五篇文章
本追踪报告是从多个角度覆盖实体 AI 系列的第五篇:
- 运营量产指标 — 产量、部署规模、行驶里程
- 人形机器人技术 — 硬件世代、灵巧性基准、基础模型能力
- 自动驾驶安全与法规 — 加州 DMV 数据、NHTSA 事故报告、州许可地图
- 投资与估值 — 资金流向、融资轮、隐含估值
- 算力与硅芯片 — 本文
算力层位于前四篇文章所有主题的底层。运营量产(第一篇)在一定程度上取决于可用的推理芯片数量。人形机器人技术基准(第二篇)取决于什么模型可以在车载实时运行。投资图景(第四篇)最终将由哪些公司掌控自己的芯片堆栈、哪些公司依赖第三方配额所决定。硅芯片不是实体 AI 最显眼的层面——但它是最基础的一层。
来源
- NVIDIA Jetson Thor 发布公告 — NVIDIA 开发者博客 ↗
- Tesla HW4 FSD 电脑 — Tesla AI Day ↗
- Tesla Dojo 超级计算机 — Tesla 投资者日 ↗
- Mobileye EyeQ Ultra — Mobileye 新闻室 ↗
- Qualcomm Snapdragon Ride Elite — Qualcomm 汽车产品 ↗