2026-06-18 — views

实体 AI 计算架构 — 边缘 vs 云端：Tesla FSD 芯片、Waymo 定制 ASIC 与 Dojo 超算

边缘推理 vs 云端训练：Tesla FSD 芯片、Waymo 定制 ASIC 与 Dojo 如何分工，掌控自动驾驶的完整计算栈。

实体 AI 基准测试系列第 57 篇 — 完整计算栈

每当一辆开启 FSD 的 Tesla 检测到行人从路缘踏出，支撑该检测的计算完全在车内完成——在一颗固定于仪表板后方的定制芯片里，消耗约 100 瓦，完全不连接 Tesla 的服务器。然而，加载到那颗芯片的神经网络权重，是通过 Tesla 云端基础设施数千个 GPU 年的算力训练而来。问题的两半——推理与训练——需要根本上不同的计算架构，而每家自动驾驶公司在这两端的选择，将决定未来十年的竞争格局。

本文完整描绘计算栈的全貌：车载边缘计算的现实、云端的运作方式，以及各公司为胜出而打造的定制硅芯片。

第一节 — 为何边缘计算对自动驾驶不可或缺

任何自动驾驶车辆的基本架构，都由一个无法回避的物理约束决定：必须在毫秒内完成的决策，无法等待数百公里外的服务器。

约束条件	说明
延迟需求	自动驾驶必须在 100 毫秒总循环内完成感知、规划与执行（估计值）；光是云端往返就增加 20–100 毫秒的网络延迟——对安全关键决策完全不可接受
连接可靠性	4G/5G 网络存在盲区、拥塞与中断；需要联网才能安全行驶的自动驾驶车，无法在商业规模下部署
数据带宽	8 个摄像头加 LIDAR 加雷达每小时产生 1–2 TB 原始传感器数据（估计值）；以当前任何无线标准都无法将这些数据实时流传至云端
法规要求	大多数自动驾驶安全框架要求车载失效安全运行能力——车辆必须能在没有任何外部连接的情况下自行停至安全状态

这些约束产生了一个所有认真的自动驾驶工程团队都遵循的原则：推理在边缘执行；训练在云端执行。 车辆在本地运行云端训练的模型，将边缘案例的精选片段上传至云端以供再训练，并定期通过 OTA 接收模型更新。

第二节 — Tesla 的边缘计算：FSD 芯片

Tesla 在 2016 年决定自行设计神经处理硬件而非依赖供应商，下了汽车行业中最关键的边缘硅芯片赌注。成果是 Tesla FSD 电脑——一个专用加速器，在每辆开启功能的 Tesla 上运行所有 FSD 推理任务。

组件	说明
芯片名称	Tesla FSD 电脑（HW3：2019 年，HW4：2023 年）
架构	由 Tesla 内部硅芯片团队设计的定制神经处理单元（NPU），由前苹果芯片团队成员 Pete Bannon 主导
HW4 规格	双芯片设计；每颗芯片内置 12 个 ARM Cortex-A77 核心、2 个 NPU 与 GPU；每颗芯片约 100 TOPS，合计约 200 TOPS（估计值）
功耗	FSD 电脑系统整体约 100W（估计值）
冗余设计	双芯片设计提供硬件冗余；失效安全架构意味着一颗芯片故障时，另一颗可维持运行
内存	HBM2（高带宽内存），用于推理期间快速访问神经网络权重
运行内容	所有 FSD 推理：摄像头处理、占用网络、神经规划器、速度控制器——完整端到端管线
OTA 更新	通过 Tesla 移动网络 OTA 更新模型权重；每个新版 FSD 软件都会将更新的神经网络权重推送至芯片
HW5（估计值）	下一代芯片预计推出；TOPS 可能大幅提升，以支持 FSD v14 及后续版本

自行设计芯片的战略逻辑与苹果应用于 M 系列的逻辑相同：当你拥有神经网络拓扑，你就能协同优化芯片架构，加速你的网络所需的精确矩阵运算。这种特殊性转化为在特定任务上更好的每瓦性能——在功耗受限且热管理影响乘客舒适度的车辆中，这一点极为重要。

第三节 — Waymo 的边缘计算：定制 ASIC 加 Orin

Waymo 的车载计算问题在结构上比 Tesla 更为复杂。Tesla 的传感器套件只有摄像头——没有 LIDAR，没有雷达。Waymo 的传感器套件结合了 LIDAR、摄像头与雷达，每种都以高频率产生不同类型的数据，所有数据都必须实时处理、融合与解读。

组件	说明
主要推理芯片	Waymo 为传感器处理设计了定制 ASIC；以 10–20 Hz 运行的 LIDAR 点云处理需要专用硬件；NVIDIA Orin SoC 用于通用神经网络推理（估计值）
LIDAR 处理	高频率 360 度 LIDAR 点云需要专用计算进行点云分割与目标检测；此工作负载无法高效映射至通用 GPU 架构
传感器融合	实时融合 LIDAR、摄像头与雷达数据流，计算密度远高于单纯摄像头处理；融合步骤必须在神经网络规划器运行前完成
HD 地图定位	将实时 LIDAR 点云与存储的 HD 地图实时匹配，需要感知管线之外的额外专用计算
车载总计算量	远高于 Tesla（估计值），原因是 LIDAR 与雷达的处理需求；Waymo 未公开 TOPS 数字
功耗	高于 Tesla（估计值），原因是 LIDAR 硬件加雷达硬件加额外计算；热管理是公认的工程挑战
第六代车辆	Waymo 专用第六代车辆从零开始集成传感器与计算硬件，减少了早期世代的改装开销

第四节 — 云端训练：Dojo vs Google TPU

边缘计算决定车辆今天能做什么。云端训练基础设施决定车辆明天改善的速度。

	Tesla Dojo	Waymo（Google TPU）
训练硬件	定制 Dojo D1 芯片加 ExaPOD 集群；每颗 D1 芯片 BF16 精度约 50 TFLOPS，内存带宽 10 TB/s	Google TPU v4/v5 Pod；Waymo 是 Alphabet 子公司，可访问 Google 完整 TPU 集群
集群规模	Tesla 目标约 1 ExaFLOP AI 训练算力（估计值，2025 年底）；Dojo 2 已宣布进一步扩展	Google TPU 集群是世界最大 AI 训练集群之一；Waymo 可按需无限访问（估计值）
训练数据管线	约 600 万辆具备 FSD 能力的 Tesla 车辆通过影子模式产生片段；被网络标记为边缘案例的片段优先上传并标注	专用测绘车辆加约 1,500 辆机器人出租车；数据集规模较小，但完全无人驾驶里程比例更高
训练目标	模仿人类驾驶视频的学习（FSD v12+）：最小化神经网络输出与人类驾驶行为之间的差异	跨目标检测、占用预测、轨迹预测与行为预测的多任务训练（估计值）
核心优势	端到端掌控训练管线；迭代更快；无云端供应商依赖	按需扩展至 Google 完整 TPU 算力；无训练硬件资本支出
核心风险	定制硅芯片是集中押注；若 Dojo 表现低于 NVIDIA 替代方案，训练吞吐量将落后	无硬件风险；Google TPU 已在规模下验证；风险在于相对 Tesla 的数据量

第五节 — 车队数据循环：训练与部署如何连接

计算架构——边缘推理芯片、云端训练集群——服务于一个决定每个系统改善速度的数据飞轮。

车队车辆执行边缘推理
    → 精选有趣片段上传至云端
    → 云端以新数据训练（Dojo / Google TPU）
    → 产出改善的模型权重
    → OTA 更新推送至车队
    → 车队表现改善
    → 更好的数据片段 → 更有效的下一轮训练

飞轮组件	Tesla	Waymo
数据量	约 600 万辆 FSD 能力车辆；每周数千万车队里程	约 1,500 辆车辆；每周 15 万次以上无人驾驶搭乘
数据质量	主要是有监督里程（人类驾驶在场）；人类干预标记真实边缘案例	完全无人驾驶里程；没有人类驾驶可以接管——每个决策都是系统自主生成
上传带宽	移动网络连接；选择性上传被车载网络标记为异常的片段	从已知车库与停车场专用上传（估计值）
训练吞吐量	Dojo 随资本投资扩展；Tesla 掌控速度	Google TPU 按需扩展；Waymo 无需新硬件即可激增算力
部署延迟	新模型发布后数日内 OTA 至约 600 万辆车辆	数小时内 OTA 至约 1,500 辆车辆

这个飞轮的不对称性，是自动驾驶行业的核心战略张力。Tesla 拥有巨大的数据量优势——600 万辆车辆对比 1,500 辆。但 Waymo 拥有数据质量优势：其数据集中的每一英里都是在没有人类准备接管的情况下行驶，意味着系统自身的决策（包括错误）都完整呈现。数据量还是数据质量更重要，目前尚无实证定论——答案将由数十亿英里的安全记录揭示。

资料来源：Tesla FSD 电脑与 Dojo 规格——tesla.com/AI（Tesla AI Day 2022、2023）；NVIDIA Orin SoC 车用规格——nvidia.com/en-us/self-driving-cars/drive-orin/；Google Cloud TPU 文档——cloud.google.com/tpu；Waymo 技术总览——waymo.com/waymo-driver/。标注「估计值」的数字均源自公开公司资料、行业报道与分析师研究，未经独立验证，应视为方向性参考。本文不构成投资建议。