2026-06-17 — views

实体 AI 的算力 — 驱动机器人量产的芯片全览（2026 年中）

全面基准测试驱动自动驾驶汽车与人形机器人的推理与训练芯片——Jetson Thor、HW4、Dojo、EyeQ Ultra 等，涵盖 2026 年中最新数据。

算力层是实体 AI 时间表的隐形瓶颈

机器人量产有一道硅基底线。自动驾驶汽车需要在严格功耗预算下实时融合雷达、激光雷达和摄像头数据的车载推理芯片。人形机器人需要能在不足 70 公斤的机体中不插电运行基础模型的边缘处理器。训练这些模型则需要能消化数 TB 机器人示范数据的大规模云端或私有计算集群。

Waymo、Tesla、Figure AI 或任何其他实体 AI 公司的所有时间表预测，本质上都是对可用硅芯片的预测。本文对驱动这个领域的芯片进行基准测试——包括部署在车辆和机器人中的推理硬件，以及背后模型训练所需的算力。

关于 TOPS 的定义说明： Tera-Operations Per Second（TOPS）以 INT8 精度衡量推理工作负载。训练芯片使用不同指标（BF16 或 FP16 的 TFLOPS）。两者不能直接比较——训练和推理是截然不同的工作负载。以下表格将两者分开呈现。

第一节 — 硅芯片基准总表

下表涵盖截至 2026 年中与实体 AI 相关的主要推理芯片。所有 TOPS 数字均为 INT8，除非另有说明。功耗数字为典型工作功耗，除非特别说明为峰值 TDP。“商业状态”表示一般商业可用性；部分芯片仍在配额制度或分阶段推出中。

芯片	制造商	TOPS (INT8)	功耗 (W)	内存／带宽	主要应用	商业状态
Jetson Orin NX	NVIDIA	100	10–25	16 GB LPDDR5，102 GB/s	边缘机器人、无人机、工业	一般可用
Jetson Thor	NVIDIA	800	~60	128 GB/s（估计）	下一代人形机器人、高级机器人	分阶段 / 配额中
HW4（FSD 电脑）	Tesla	1,000+（Tesla 声称）	~50–80（每颗）	定制 LPDDR5	Tesla 车辆自动驾驶推理	量产中（Model S/X/3/Y/Cybertruck/Cybercab）
HW4 双芯片	Tesla	2,000+（Tesla 声称）	~100–160（合计）	两颗 HW4 并联	高冗余 Tesla 车型	量产中
Dojo D1 芯片组	Tesla	不适用——训练芯片	~350（每组）	每组 900 GB/s	神经网络训练（非推理）	仅用于训练集群
Snapdragon Ride Elite	Qualcomm	700+	未完整披露	汽车级 ECC LPDDR5	ADAS、L2+/L3 自动驾驶	量产中（OEM 推出中）
EyeQ Ultra	Mobileye	176	~10	集成式 LPDDR5	L4 自动驾驶推理	2025 年起可用
TPU v5e	Google	不适用——训练芯片	~170（每颗）	HBM2e，每 Pod 1.6 TB/s	云端模型训练（如 Waymo 神经网络）	仅限 Google Cloud（非独立销售）

读表说明： TOPS 数字因各制造商的测量方式不同而有很大差异——Tesla 的 1,000+ 声称使用 Tesla 内部基准方法，可能无法与 NVIDIA 公布的 INT8 数字直接比较。跨厂商 TOPS 比较应视为方向性参考，而非精确数值。功耗效率（TOPS/W）通常是移动和车辆应用更有意义的指标：HW4 约达 12–20 TOPS/W（估计），EyeQ Ultra 约 17 TOPS/W，Jetson Orin NX 依工作点不同约 4–10 TOPS/W。

Tesla Dojo D1： 每组 D1 芯片组在 BF16 精度下提供 362 TFLOPS。Tesla 的 ExaPOD 配置——3,000 组 D1 芯片组加交换矩阵——目标是 100 exaFLOPS 的总训练算力。这是一个训练系统，不是推理芯片，不部署在车辆中。

第二节 — 谁用什么：公司层级的算力堆栈

车辆或机器人中的推理芯片只是图片的一半。训练算力——用于构建模型的云端或私有集群——同样关键。下表将主要实体 AI 公司对应到两个层面。

公司	车载推理芯片	训练算力	备注
Waymo	定制 ASIC（Waymo Driver 芯片，第 5 代）	Google Cloud TPU v4/v5 集群	车载芯片细节有限；Google Cloud 关系提供训练规模
Tesla	HW4（单颗或双颗）	Dojo + NVIDIA H100 集群（过渡中）	积极垂直整合——正将训练迁移至 Dojo；HW4 为自研
Figure AI	NVIDIA Jetson Thor	NVIDIA DGX / H100 集群	基础模型在板外训练；Thor 处理车载推理
Agility Robotics（Digit）	Intel / NVIDIA 边缘计算（混合）	AWS 云端计算	Amazon 母公司提供 AWS 基础设施；车载芯片细节有限
1X Technologies	NVIDIA Jetson Thor 平台	NVIDIA DGX 架构	OpenAI 合作伙伴关系影响模型训练堆栈
Boston Dynamics（Atlas）	定制执行器计算 + NVIDIA Isaac 平台	NVIDIA Isaac Sim / 云端训练	Isaac 平台用于仿真到真实的迁移
Apptronik（Apollo）	基于 NVIDIA 的边缘计算	AWS / NVIDIA（估计）	Google/Samsung 投资；训练堆栈未完整披露

此表揭示的信息： Tesla 和 Waymo 在推理和训练两端都已垂直整合或深度合作。人形机器人初创群——Figure、1X、Apptronik——在推理上集中于 NVIDIA Jetson Thor，在训练上集中于 NVIDIA DGX 基础设施。这造成了第五节讨论的单一供应商依赖风险。

第三节 — Tesla 的垂直整合优势

Tesla 在算力层中占据与其他所有实体 AI 公司截然不同的结构性地位。它同时设计部署在车辆中的推理芯片（HW4）和用于构建模型的训练硅芯片（Dojo D1）。没有任何其他实体 AI 公司能同时掌控这个堆栈的两端。

垂直整合为 Tesla 带来什么

不受 NVIDIA 出口限制影响的训练流程。 Dojo D1 芯片组以美国本土工具链和供应链设计制造。当美国政府限制 NVIDIA H100 和 A100 芯片出口至特定市场时，Tesla 构建在 Dojo 上的训练流程不受影响。随着出口管制持续演变，这是一个随时间复利增长的战略不对称性。

车辆规模下的每 TOPS 成本。 HW4 作为 Tesla 车辆生产线的一部分制造并整合。推理算力的成本在车辆硬件利润率中摊提。以第三方组件购买 Mobileye EyeQ Ultra 或 Qualcomm Snapdragon Ride Elite 会增加供应商利润层并形成采购依赖。Tesla 通过自研和整合消除了这两个问题。

训练算力：Dojo vs. NVIDIA H100 集群比较。 Tesla 的 ExaPOD 目标是在 3,000 组 D1 芯片组上达到 100 exaFLOPS 的 BF16 训练算力。一个达到 100 exaFLOPS 的可比 NVIDIA H100 集群需要约 3,100 颗 H100 GPU（每颗在 SXM5 峰值下约提供 32 TFLOPS BF16）。以数据中心定价（估计），该规模的 H100 集群代表数亿美元的硬件加上电力和冷却基础设施。Tesla 的 Dojo 设计旨在以更低的总体拥有成本提供同等规模——虽然这项成本主张的外部验证尚未公开。

权衡： 垂直整合带有工程风险。Dojo 开发花费的时间比最初公开时程更长，Tesla 在过渡期间继续使用 NVIDIA H100 集群进行训练。截至 2026 年中，完全转移到以 Dojo 作为主要训练是一个既定目标，而非已完成的转型。

第四节 — Waymo 的算力堆栈

Waymo 的方式在一个重要方面与 Tesla 相反：它不设计自己的芯片，但通过母公司 Alphabet/Google 深度整合了业界最强大的训练基础设施。

车载推理：Waymo Driver 芯片

Waymo 为车载推理开发了定制 ASIC——第五代 Waymo Driver 芯片。这款芯片的详细规格未公开，这与 Waymo 保护技术差异化的做法一致。从 Waymo 公开通信中可知：

该芯片实时处理 Waymo One 传感器套件的传感器融合：摄像头、激光雷达、雷达
它在车载执行感知、预测和规划堆栈，实现完全无人驾驶运行
每一代芯片相比上一代在功耗效率和处理吞吐量上都有所提升

Waymo 不出售或授权其推理芯片。它是为 Waymo One 车辆专门制造的，不是通用汽车芯片。

训练：Google Cloud TPU 的规模优势

Waymo 在 Google Cloud TPU v4 和 v5 基础设施上训练其神经网络。Google Cloud 的 TPU Pod 配置可达 exaFLOP 规模算力。这使 Waymo 能以反映 Google 母公司关系而非市场价格的成本结构，获得可与任何人形机器人初创通过 NVIDIA 云端实例所能提供的相媲美或超越的训练算力。

结构性含义： Waymo 的训练规模优势不是初创公司通过再融一轮可以复制的。以成本价获取 Google TPU 基础设施是一个结构性护城河。Waymo 的限制不是算力——而是数据多样性（在更多城市、条件和边缘案例中的驾驶里程）和车辆制造规模。

第五节 — NVIDIA 对人形机器人初创的瓶颈

人形机器人初创集中于单一推理平台——NVIDIA Jetson Thor——造成了一个在人形机器人量产讨论中不被广泛提及的供应集中风险。

Thor 为何成为默认选择

Jetson Thor 在商业可用的人形机器人规模边缘计算模组中提供最高的 TOPS/W 比率。以 800 TOPS 和约 60W，它使大型视觉-语言-动作模型的车载推理无需外部算力连线即可实现。NVIDIA 的 Isaac 机器人平台——仿真、训练流程和部署工具——与 Jetson 硬件原生集成。对于想要快速推进而不需自建芯片团队的初创公司，Thor 加 Isaac 是理性的选择。

配额问题

NVIDIA Jetson Thor 是一个高复杂度的系统级模组，与数据中心 GPU 需求竞争 NVIDIA 的内部工程和制造产能。截至 2026 年中，Jetson Thor 据报处于配额状态——即人形机器人制造商的需求超过立即可用的供应。这与新款 Jetson 模组的标准产品生命周期一致：初期产量有限，配额优先顺序由 NVIDIA 管理。

这对量产时间表意味着什么

对于 Figure AI、1X Technologies 和 Apptronik 等依赖 Jetson Thor 作为车载算力的公司——机器人硬件量产在一定程度上受制于 NVIDIA 的产能配额决策。一家公司可以设计最好的人形机器人外框、训练最好的基础模型、签署最好的客户合同，但如果 Thor 模组需要 6–12 个月的交货期，实际生产速率就受硅芯片限制，而非工程能力。

Tesla 和 Waymo 不受此限制。 Tesla 使用 HW4，其自研芯片。Waymo 使用其定制 ASIC。两者都不依赖 NVIDIA 进行车载推理。这个限制完全落在选择了使用商业 NVIDIA 硬件快速通道而非投资定制芯片的人形机器人初创身上——这是早期阶段合理的权衡，但在量产规模上成为瓶颈。

长期解决方案： 达到有意义量产规模的人形机器人将面临芯片自制或外购的决策。进入 C 轮及之后的公司将有资本探索定制 ASIC 开发（一个 3–5 年的计划），或与 NVIDIA 谈判优先配额协议。两者都不是短期解决方案。在 2026–2028 年期间，NVIDIA Thor 配额上限是人形机器人产业能多快扩展的真实限制。

基准背景：这是实体 AI 系列的第五篇文章

本追踪报告是从多个角度覆盖实体 AI 系列的第五篇：

运营量产指标 — 产量、部署规模、行驶里程
人形机器人技术 — 硬件世代、灵巧性基准、基础模型能力
自动驾驶安全与法规 — 加州 DMV 数据、NHTSA 事故报告、州许可地图
投资与估值 — 资金流向、融资轮、隐含估值
算力与硅芯片 — 本文

算力层位于前四篇文章所有主题的底层。运营量产（第一篇）在一定程度上取决于可用的推理芯片数量。人形机器人技术基准（第二篇）取决于什么模型可以在车载实时运行。投资图景（第四篇）最终将由哪些公司掌控自己的芯片堆栈、哪些公司依赖第三方配额所决定。硅芯片不是实体 AI 最显眼的层面——但它是最基础的一层。