Skip to content
AI-Daily-Builder

2026-06-17 views

实体 AI 的算力 — 驱动机器人量产的芯片全览(2026 年中)

全面基准测试驱动自动驾驶汽车与人形机器人的推理与训练芯片——Jetson Thor、HW4、Dojo、EyeQ Ultra 等,涵盖 2026 年中最新数据。

算力层是实体 AI 时间表的隐形瓶颈

机器人量产有一道硅基底线。自动驾驶汽车需要在严格功耗预算下实时融合雷达、激光雷达和摄像头数据的车载推理芯片。人形机器人需要能在不足 70 公斤的机体中不插电运行基础模型的边缘处理器。训练这些模型则需要能消化数 TB 机器人示范数据的大规模云端或私有计算集群。

Waymo、Tesla、Figure AI 或任何其他实体 AI 公司的所有时间表预测,本质上都是对可用硅芯片的预测。本文对驱动这个领域的芯片进行基准测试——包括部署在车辆和机器人中的推理硬件,以及背后模型训练所需的算力。

关于 TOPS 的定义说明: Tera-Operations Per Second(TOPS)以 INT8 精度衡量推理工作负载。训练芯片使用不同指标(BF16 或 FP16 的 TFLOPS)。两者不能直接比较——训练和推理是截然不同的工作负载。以下表格将两者分开呈现。


第一节 — 硅芯片基准总表

下表涵盖截至 2026 年中与实体 AI 相关的主要推理芯片。所有 TOPS 数字均为 INT8,除非另有说明。功耗数字为典型工作功耗,除非特别说明为峰值 TDP。“商业状态”表示一般商业可用性;部分芯片仍在配额制度或分阶段推出中。

芯片制造商TOPS (INT8)功耗 (W)内存/带宽主要应用商业状态
Jetson Orin NXNVIDIA10010–2516 GB LPDDR5,102 GB/s边缘机器人、无人机、工业一般可用
Jetson ThorNVIDIA800~60128 GB/s(估计)下一代人形机器人、高级机器人分阶段 / 配额中
HW4(FSD 电脑)Tesla1,000+(Tesla 声称)~50–80(每颗)定制 LPDDR5Tesla 车辆自动驾驶推理量产中(Model S/X/3/Y/Cybertruck/Cybercab)
HW4 双芯片Tesla2,000+(Tesla 声称)~100–160(合计)两颗 HW4 并联高冗余 Tesla 车型量产中
Dojo D1 芯片组Tesla不适用——训练芯片~350(每组)每组 900 GB/s神经网络训练(非推理)仅用于训练集群
Snapdragon Ride EliteQualcomm700+未完整披露汽车级 ECC LPDDR5ADAS、L2+/L3 自动驾驶量产中(OEM 推出中)
EyeQ UltraMobileye176~10集成式 LPDDR5L4 自动驾驶推理2025 年起可用
TPU v5eGoogle不适用——训练芯片~170(每颗)HBM2e,每 Pod 1.6 TB/s云端模型训练(如 Waymo 神经网络)仅限 Google Cloud(非独立销售)

读表说明: TOPS 数字因各制造商的测量方式不同而有很大差异——Tesla 的 1,000+ 声称使用 Tesla 内部基准方法,可能无法与 NVIDIA 公布的 INT8 数字直接比较。跨厂商 TOPS 比较应视为方向性参考,而非精确数值。功耗效率(TOPS/W)通常是移动和车辆应用更有意义的指标:HW4 约达 12–20 TOPS/W(估计),EyeQ Ultra 约 17 TOPS/W,Jetson Orin NX 依工作点不同约 4–10 TOPS/W。

Tesla Dojo D1: 每组 D1 芯片组在 BF16 精度下提供 362 TFLOPS。Tesla 的 ExaPOD 配置——3,000 组 D1 芯片组加交换矩阵——目标是 100 exaFLOPS 的总训练算力。这是一个训练系统,不是推理芯片,不部署在车辆中。


第二节 — 谁用什么:公司层级的算力堆栈

车辆或机器人中的推理芯片只是图片的一半。训练算力——用于构建模型的云端或私有集群——同样关键。下表将主要实体 AI 公司对应到两个层面。

公司车载推理芯片训练算力备注
Waymo定制 ASIC(Waymo Driver 芯片,第 5 代)Google Cloud TPU v4/v5 集群车载芯片细节有限;Google Cloud 关系提供训练规模
TeslaHW4(单颗或双颗)Dojo + NVIDIA H100 集群(过渡中)积极垂直整合——正将训练迁移至 Dojo;HW4 为自研
Figure AINVIDIA Jetson ThorNVIDIA DGX / H100 集群基础模型在板外训练;Thor 处理车载推理
Agility Robotics(Digit)Intel / NVIDIA 边缘计算(混合)AWS 云端计算Amazon 母公司提供 AWS 基础设施;车载芯片细节有限
1X TechnologiesNVIDIA Jetson Thor 平台NVIDIA DGX 架构OpenAI 合作伙伴关系影响模型训练堆栈
Boston Dynamics(Atlas)定制执行器计算 + NVIDIA Isaac 平台NVIDIA Isaac Sim / 云端训练Isaac 平台用于仿真到真实的迁移
Apptronik(Apollo)基于 NVIDIA 的边缘计算AWS / NVIDIA(估计)Google/Samsung 投资;训练堆栈未完整披露

此表揭示的信息: Tesla 和 Waymo 在推理和训练两端都已垂直整合或深度合作。人形机器人初创群——Figure、1X、Apptronik——在推理上集中于 NVIDIA Jetson Thor,在训练上集中于 NVIDIA DGX 基础设施。这造成了第五节讨论的单一供应商依赖风险。


第三节 — Tesla 的垂直整合优势

Tesla 在算力层中占据与其他所有实体 AI 公司截然不同的结构性地位。它同时设计部署在车辆中的推理芯片(HW4)和用于构建模型的训练硅芯片(Dojo D1)。没有任何其他实体 AI 公司能同时掌控这个堆栈的两端。

垂直整合为 Tesla 带来什么

不受 NVIDIA 出口限制影响的训练流程。 Dojo D1 芯片组以美国本土工具链和供应链设计制造。当美国政府限制 NVIDIA H100 和 A100 芯片出口至特定市场时,Tesla 构建在 Dojo 上的训练流程不受影响。随着出口管制持续演变,这是一个随时间复利增长的战略不对称性。

车辆规模下的每 TOPS 成本。 HW4 作为 Tesla 车辆生产线的一部分制造并整合。推理算力的成本在车辆硬件利润率中摊提。以第三方组件购买 Mobileye EyeQ Ultra 或 Qualcomm Snapdragon Ride Elite 会增加供应商利润层并形成采购依赖。Tesla 通过自研和整合消除了这两个问题。

训练算力:Dojo vs. NVIDIA H100 集群比较。 Tesla 的 ExaPOD 目标是在 3,000 组 D1 芯片组上达到 100 exaFLOPS 的 BF16 训练算力。一个达到 100 exaFLOPS 的可比 NVIDIA H100 集群需要约 3,100 颗 H100 GPU(每颗在 SXM5 峰值下约提供 32 TFLOPS BF16)。以数据中心定价(估计),该规模的 H100 集群代表数亿美元的硬件加上电力和冷却基础设施。Tesla 的 Dojo 设计旨在以更低的总体拥有成本提供同等规模——虽然这项成本主张的外部验证尚未公开。

权衡: 垂直整合带有工程风险。Dojo 开发花费的时间比最初公开时程更长,Tesla 在过渡期间继续使用 NVIDIA H100 集群进行训练。截至 2026 年中,完全转移到以 Dojo 作为主要训练是一个既定目标,而非已完成的转型。


第四节 — Waymo 的算力堆栈

Waymo 的方式在一个重要方面与 Tesla 相反:它不设计自己的芯片,但通过母公司 Alphabet/Google 深度整合了业界最强大的训练基础设施。

车载推理:Waymo Driver 芯片

Waymo 为车载推理开发了定制 ASIC——第五代 Waymo Driver 芯片。这款芯片的详细规格未公开,这与 Waymo 保护技术差异化的做法一致。从 Waymo 公开通信中可知:

Waymo 不出售或授权其推理芯片。它是为 Waymo One 车辆专门制造的,不是通用汽车芯片。

训练:Google Cloud TPU 的规模优势

Waymo 在 Google Cloud TPU v4 和 v5 基础设施上训练其神经网络。Google Cloud 的 TPU Pod 配置可达 exaFLOP 规模算力。这使 Waymo 能以反映 Google 母公司关系而非市场价格的成本结构,获得可与任何人形机器人初创通过 NVIDIA 云端实例所能提供的相媲美或超越的训练算力。

结构性含义: Waymo 的训练规模优势不是初创公司通过再融一轮可以复制的。以成本价获取 Google TPU 基础设施是一个结构性护城河。Waymo 的限制不是算力——而是数据多样性(在更多城市、条件和边缘案例中的驾驶里程)和车辆制造规模。


第五节 — NVIDIA 对人形机器人初创的瓶颈

人形机器人初创集中于单一推理平台——NVIDIA Jetson Thor——造成了一个在人形机器人量产讨论中不被广泛提及的供应集中风险。

Thor 为何成为默认选择

Jetson Thor 在商业可用的人形机器人规模边缘计算模组中提供最高的 TOPS/W 比率。以 800 TOPS 和约 60W,它使大型视觉-语言-动作模型的车载推理无需外部算力连线即可实现。NVIDIA 的 Isaac 机器人平台——仿真、训练流程和部署工具——与 Jetson 硬件原生集成。对于想要快速推进而不需自建芯片团队的初创公司,Thor 加 Isaac 是理性的选择。

配额问题

NVIDIA Jetson Thor 是一个高复杂度的系统级模组,与数据中心 GPU 需求竞争 NVIDIA 的内部工程和制造产能。截至 2026 年中,Jetson Thor 据报处于配额状态——即人形机器人制造商的需求超过立即可用的供应。这与新款 Jetson 模组的标准产品生命周期一致:初期产量有限,配额优先顺序由 NVIDIA 管理。

这对量产时间表意味着什么

对于 Figure AI、1X Technologies 和 Apptronik 等依赖 Jetson Thor 作为车载算力的公司——机器人硬件量产在一定程度上受制于 NVIDIA 的产能配额决策。一家公司可以设计最好的人形机器人外框、训练最好的基础模型、签署最好的客户合同,但如果 Thor 模组需要 6–12 个月的交货期,实际生产速率就受硅芯片限制,而非工程能力。

Tesla 和 Waymo 不受此限制。 Tesla 使用 HW4,其自研芯片。Waymo 使用其定制 ASIC。两者都不依赖 NVIDIA 进行车载推理。这个限制完全落在选择了使用商业 NVIDIA 硬件快速通道而非投资定制芯片的人形机器人初创身上——这是早期阶段合理的权衡,但在量产规模上成为瓶颈。

长期解决方案: 达到有意义量产规模的人形机器人将面临芯片自制或外购的决策。进入 C 轮及之后的公司将有资本探索定制 ASIC 开发(一个 3–5 年的计划),或与 NVIDIA 谈判优先配额协议。两者都不是短期解决方案。在 2026–2028 年期间,NVIDIA Thor 配额上限是人形机器人产业能多快扩展的真实限制。


基准背景:这是实体 AI 系列的第五篇文章

本追踪报告是从多个角度覆盖实体 AI 系列的第五篇:

  1. 运营量产指标 — 产量、部署规模、行驶里程
  2. 人形机器人技术 — 硬件世代、灵巧性基准、基础模型能力
  3. 自动驾驶安全与法规 — 加州 DMV 数据、NHTSA 事故报告、州许可地图
  4. 投资与估值 — 资金流向、融资轮、隐含估值
  5. 算力与硅芯片 — 本文

算力层位于前四篇文章所有主题的底层。运营量产(第一篇)在一定程度上取决于可用的推理芯片数量。人形机器人技术基准(第二篇)取决于什么模型可以在车载实时运行。投资图景(第四篇)最终将由哪些公司掌控自己的芯片堆栈、哪些公司依赖第三方配额所决定。硅芯片不是实体 AI 最显眼的层面——但它是最基础的一层。


来源

标签

请喝咖啡