2026-06-18 — views
实体 AI 计算架构 — 边缘 vs 云端:Tesla FSD 芯片、Waymo 定制 ASIC 与 Dojo 超算
边缘推理 vs 云端训练:Tesla FSD 芯片、Waymo 定制 ASIC 与 Dojo 如何分工,掌控自动驾驶的完整计算栈。
实体 AI 基准测试系列第 57 篇 — 完整计算栈
每当一辆开启 FSD 的 Tesla 检测到行人从路缘踏出,支撑该检测的计算完全在车内完成——在一颗固定于仪表板后方的定制芯片里,消耗约 100 瓦,完全不连接 Tesla 的服务器。然而,加载到那颗芯片的神经网络权重,是通过 Tesla 云端基础设施数千个 GPU 年的算力训练而来。问题的两半——推理与训练——需要根本上不同的计算架构,而每家自动驾驶公司在这两端的选择,将决定未来十年的竞争格局。
本文完整描绘计算栈的全貌:车载边缘计算的现实、云端的运作方式,以及各公司为胜出而打造的定制硅芯片。
第一节 — 为何边缘计算对自动驾驶不可或缺
任何自动驾驶车辆的基本架构,都由一个无法回避的物理约束决定:必须在毫秒内完成的决策,无法等待数百公里外的服务器。
| 约束条件 | 说明 |
|---|---|
| 延迟需求 | 自动驾驶必须在 100 毫秒总循环内完成感知、规划与执行(估计值);光是云端往返就增加 20–100 毫秒的网络延迟——对安全关键决策完全不可接受 |
| 连接可靠性 | 4G/5G 网络存在盲区、拥塞与中断;需要联网才能安全行驶的自动驾驶车,无法在商业规模下部署 |
| 数据带宽 | 8 个摄像头加 LIDAR 加雷达每小时产生 1–2 TB 原始传感器数据(估计值);以当前任何无线标准都无法将这些数据实时流传至云端 |
| 法规要求 | 大多数自动驾驶安全框架要求车载失效安全运行能力——车辆必须能在没有任何外部连接的情况下自行停至安全状态 |
这些约束产生了一个所有认真的自动驾驶工程团队都遵循的原则:推理在边缘执行;训练在云端执行。 车辆在本地运行云端训练的模型,将边缘案例的精选片段上传至云端以供再训练,并定期通过 OTA 接收模型更新。
第二节 — Tesla 的边缘计算:FSD 芯片
Tesla 在 2016 年决定自行设计神经处理硬件而非依赖供应商,下了汽车行业中最关键的边缘硅芯片赌注。成果是 Tesla FSD 电脑——一个专用加速器,在每辆开启功能的 Tesla 上运行所有 FSD 推理任务。
| 组件 | 说明 |
|---|---|
| 芯片名称 | Tesla FSD 电脑(HW3:2019 年,HW4:2023 年) |
| 架构 | 由 Tesla 内部硅芯片团队设计的定制神经处理单元(NPU),由前苹果芯片团队成员 Pete Bannon 主导 |
| HW4 规格 | 双芯片设计;每颗芯片内置 12 个 ARM Cortex-A77 核心、2 个 NPU 与 GPU;每颗芯片约 100 TOPS,合计约 200 TOPS(估计值) |
| 功耗 | FSD 电脑系统整体约 100W(估计值) |
| 冗余设计 | 双芯片设计提供硬件冗余;失效安全架构意味着一颗芯片故障时,另一颗可维持运行 |
| 内存 | HBM2(高带宽内存),用于推理期间快速访问神经网络权重 |
| 运行内容 | 所有 FSD 推理:摄像头处理、占用网络、神经规划器、速度控制器——完整端到端管线 |
| OTA 更新 | 通过 Tesla 移动网络 OTA 更新模型权重;每个新版 FSD 软件都会将更新的神经网络权重推送至芯片 |
| HW5(估计值) | 下一代芯片预计推出;TOPS 可能大幅提升,以支持 FSD v14 及后续版本 |
自行设计芯片的战略逻辑与苹果应用于 M 系列的逻辑相同:当你拥有神经网络拓扑,你就能协同优化芯片架构,加速你的网络所需的精确矩阵运算。这种特殊性转化为在特定任务上更好的每瓦性能——在功耗受限且热管理影响乘客舒适度的车辆中,这一点极为重要。
第三节 — Waymo 的边缘计算:定制 ASIC 加 Orin
Waymo 的车载计算问题在结构上比 Tesla 更为复杂。Tesla 的传感器套件只有摄像头——没有 LIDAR,没有雷达。Waymo 的传感器套件结合了 LIDAR、摄像头与雷达,每种都以高频率产生不同类型的数据,所有数据都必须实时处理、融合与解读。
| 组件 | 说明 |
|---|---|
| 主要推理芯片 | Waymo 为传感器处理设计了定制 ASIC;以 10–20 Hz 运行的 LIDAR 点云处理需要专用硬件;NVIDIA Orin SoC 用于通用神经网络推理(估计值) |
| LIDAR 处理 | 高频率 360 度 LIDAR 点云需要专用计算进行点云分割与目标检测;此工作负载无法高效映射至通用 GPU 架构 |
| 传感器融合 | 实时融合 LIDAR、摄像头与雷达数据流,计算密度远高于单纯摄像头处理;融合步骤必须在神经网络规划器运行前完成 |
| HD 地图定位 | 将实时 LIDAR 点云与存储的 HD 地图实时匹配,需要感知管线之外的额外专用计算 |
| 车载总计算量 | 远高于 Tesla(估计值),原因是 LIDAR 与雷达的处理需求;Waymo 未公开 TOPS 数字 |
| 功耗 | 高于 Tesla(估计值),原因是 LIDAR 硬件加雷达硬件加额外计算;热管理是公认的工程挑战 |
| 第六代车辆 | Waymo 专用第六代车辆从零开始集成传感器与计算硬件,减少了早期世代的改装开销 |
第四节 — 云端训练:Dojo vs Google TPU
边缘计算决定车辆今天能做什么。云端训练基础设施决定车辆明天改善的速度。
| Tesla Dojo | Waymo(Google TPU) | |
|---|---|---|
| 训练硬件 | 定制 Dojo D1 芯片加 ExaPOD 集群;每颗 D1 芯片 BF16 精度约 50 TFLOPS,内存带宽 10 TB/s | Google TPU v4/v5 Pod;Waymo 是 Alphabet 子公司,可访问 Google 完整 TPU 集群 |
| 集群规模 | Tesla 目标约 1 ExaFLOP AI 训练算力(估计值,2025 年底);Dojo 2 已宣布进一步扩展 | Google TPU 集群是世界最大 AI 训练集群之一;Waymo 可按需无限访问(估计值) |
| 训练数据管线 | 约 600 万辆具备 FSD 能力的 Tesla 车辆通过影子模式产生片段;被网络标记为边缘案例的片段优先上传并标注 | 专用测绘车辆加约 1,500 辆机器人出租车;数据集规模较小,但完全无人驾驶里程比例更高 |
| 训练目标 | 模仿人类驾驶视频的学习(FSD v12+):最小化神经网络输出与人类驾驶行为之间的差异 | 跨目标检测、占用预测、轨迹预测与行为预测的多任务训练(估计值) |
| 核心优势 | 端到端掌控训练管线;迭代更快;无云端供应商依赖 | 按需扩展至 Google 完整 TPU 算力;无训练硬件资本支出 |
| 核心风险 | 定制硅芯片是集中押注;若 Dojo 表现低于 NVIDIA 替代方案,训练吞吐量将落后 | 无硬件风险;Google TPU 已在规模下验证;风险在于相对 Tesla 的数据量 |
第五节 — 车队数据循环:训练与部署如何连接
计算架构——边缘推理芯片、云端训练集群——服务于一个决定每个系统改善速度的数据飞轮。
车队车辆执行边缘推理
→ 精选有趣片段上传至云端
→ 云端以新数据训练(Dojo / Google TPU)
→ 产出改善的模型权重
→ OTA 更新推送至车队
→ 车队表现改善
→ 更好的数据片段 → 更有效的下一轮训练
| 飞轮组件 | Tesla | Waymo |
|---|---|---|
| 数据量 | 约 600 万辆 FSD 能力车辆;每周数千万车队里程 | 约 1,500 辆车辆;每周 15 万次以上无人驾驶搭乘 |
| 数据质量 | 主要是有监督里程(人类驾驶在场);人类干预标记真实边缘案例 | 完全无人驾驶里程;没有人类驾驶可以接管——每个决策都是系统自主生成 |
| 上传带宽 | 移动网络连接;选择性上传被车载网络标记为异常的片段 | 从已知车库与停车场专用上传(估计值) |
| 训练吞吐量 | Dojo 随资本投资扩展;Tesla 掌控速度 | Google TPU 按需扩展;Waymo 无需新硬件即可激增算力 |
| 部署延迟 | 新模型发布后数日内 OTA 至约 600 万辆车辆 | 数小时内 OTA 至约 1,500 辆车辆 |
这个飞轮的不对称性,是自动驾驶行业的核心战略张力。Tesla 拥有巨大的数据量优势——600 万辆车辆对比 1,500 辆。但 Waymo 拥有数据质量优势:其数据集中的每一英里都是在没有人类准备接管的情况下行驶,意味着系统自身的决策(包括错误)都完整呈现。数据量还是数据质量更重要,目前尚无实证定论——答案将由数十亿英里的安全记录揭示。
资料来源:Tesla FSD 电脑与 Dojo 规格——tesla.com/AI(Tesla AI Day 2022、2023);NVIDIA Orin SoC 车用规格——nvidia.com/en-us/self-driving-cars/drive-orin/;Google Cloud TPU 文档——cloud.google.com/tpu;Waymo 技术总览——waymo.com/waymo-driver/。标注「估计值」的数字均源自公开公司资料、行业报道与分析师研究,未经独立验证,应视为方向性参考。本文不构成投资建议。
来源
- Tesla FSD 电脑 HW4 规格 — Tesla AI Day 2022 ↗
- Tesla Dojo 超算 — Tesla AI 基础设施 ↗
- NVIDIA Orin SoC 车用计算 — NVIDIA ↗
- Google TPU 计算集群 — Google Cloud ↗