2026-06-18 — views

Physical AI 软件堆栈架构 — Waymo 模块化流水线 vs Tesla 端到端神经网络：AV 史上最关键技术决策

Waymo 采用可解释模块化流水线；Tesla 押注 600 万辆车队训练的端到端神经网络；两者正朝混合架构收敛。

Physical AI 基准系列第 136 篇 — Physical AI 软件堆栈架构：Waymo 模块化流水线 vs Tesla 端到端神经网络，以及为何堆栈选择是 AV 史上最关键的技术决策

自动驾驶工程领域最大的未解争论，不在于传感器、地图或城市——而在于架构。你应该构建模块化流水线（感知、预测与规划各由独立模型处理，每个阶段都有可解释的中间输出）？还是构建端到端神经网络（原始传感器数据直接输入神经网络，输出方向盘、油门与刹车指令，完全靠真实车队视频训练）？Waymo 选择了模块化；Tesla 选择了端到端。这不仅是技术偏好——它决定了安全哲学、监管立场、调试能力，以及最终谁能更快扩展、扩展到哪些地区。这是 Physical AI 基准系列第 136 篇。

所有标记「（估计）」的数据均源自公开披露、研究出版物、行业分析师估计及合理推断，而非独立验证的第一手资料。

第 1 节 — Waymo 的模块化堆栈

Waymo 的软件架构是一个分层模块化流水线。每一层接收下层的输出，使用一个或多个专用神经网络或规则系统进行处理，并将结构化表示向上传递。设计理念根植于传统软件工程：关注点分离、独立测试每个组件，确保任何故障都能在模块层面诊断。

模块	功能	技术	核心优势
感知	接收原始传感器数据（激光雷达+摄像头+毫米波），产生结构化世界表示：车辆、行人、骑手、道路标线、交通信号	多个专用神经网络（每类对象每个传感器各一个）；传感器融合合并输出	每个感知模型可独立测试、验证与更新；安全工程师可检视中间输出
预测	接收感知的结构化世界模型，预测所有交通参与者的未来轨迹	MultiPath++（Waymo 发表的轨迹预测模型）；输出未来状态的概率分布	概率输出使不确定性显式化；规划器可具备风险意识
规划	接收预测轨迹，为 Waymo 车辆生成安全、舒适的驾驶计划	MotionCNN + 行为克隆 + 基于规则的安全层；生成多个竞争计划并评分	基于规则的安全层 = 神经网络不得违反的硬性约束（如永不越过双黄线）
控制	将规划输出转换为精确的方向盘、油门与刹车指令	传统控制理论（PID 控制器）；与规划可分离	可预测、可认证、可供监管机构检视
HD 地图	提供道路结构、车道几何、交通信号位置的先验知识	Waymo 专有 HD 地图（通过车队持续更新）	降低感知不确定性；激光雷达可对照地图以厘米精度定位
仿真	在部署前于合成环境中测试各模块及完整堆栈	Waymo 的 Simulation City；基于 NeRF 的场景重建	1 英里真实数据生成 1,000+ 个仿真变体（估计）
安全监视器	可覆盖所有其他模块并让车辆安全停车的独立看门狗	基于规则；非神经网络；设计为可被证明正确	最终安全保障；监管信任的关键

模块化设计有一个根本性的结构优势：它创造了自然的审计点。当 Waymo 车辆做出意外决策时，工程师可以检视感知层输出，验证对象是否被正确检测，然后检视预测层了解对每个交通参与者预测了哪些轨迹，再检视规划层了解选择了哪个计划及原因。这是由架构带来的可解释性——不是后来加上的功能，而是系统基本设计的组成部分。

第 2 节 — Tesla 的端到端堆栈（FSD v12+）

Tesla 的完全自动驾驶（FSD）第 12 版代表了一次根本性的架构转变：从模块化系统转向端到端神经网络。在 FSD v12 及以后，来自 Tesla 8 个摄像头的原始视频流入神经网络，直接输出驾驶计划——没有明确的对象检测，没有明确的轨迹预测，关键路径中没有手写规则。神经网络通过模仿人类驾驶员学习驾驶，训练数据集包含数百亿英里（估计）的有介入记录的视频。

组件	功能	技术	核心优势
视频分词器	将 8 个摄像头的视频转换为神经网络可处理的 token	Tesla 自定义视频分词器；类似 Vision Transformer 概念	同时处理空间+时间上下文；无需手写对象检测
端到端神经网络	接收分词视频（过去+现在帧）直接输出驾驶计划（轨迹+速度曲线）	Transformer 架构；在 600 万+ 车队数据上训练；无中间结构化表示	学习工程师无法明确编程的驾驶行为；通过训练数据规模处理长尾场景
占用网络	预测车辆周围空间的 3D 占用情况	神经占用预测；替代传统对象检测+追踪	处理不符合预定义类别的对象（垃圾袋、特殊车辆）
自动标注流水线	自动标注车队视频用于训练（避免大规模人工标注）	神经标注模型；人工审查边缘案例	无需按比例增加人工标注成本即可扩展至数十亿英里
无 HD 地图	FSD v12+ 不需要预先构建的 HD 地图	基于视觉的实时摄像头观测定位	在 Waymo 未建图的城市中运作；无地图维护成本的地理扩展
Dojo 训练集群	大规模训练端到端模型	Tesla 自定义 D1 芯片、ExaPOD 集群（1+ ExaFLOP 估计）	每次模型更新的训练成本可能低于租用 H100 集群（估计）
介入式学习	驾驶员介入（接管 FSD）被记录为边缘案例的训练信号	基于人类纠正的监督学习	600 万+ 车队产生大量介入数据

车队数据飞轮是 Tesla 方法最关键的结构优势。超过 600 万辆在路上行驶的车辆持续生成视频，Tesla 积累了几乎无限的驾驶数据——包括最难在小型车队中遇到的罕见边缘案例。Waymo 小得多的车队无法从真实世界数据量单独生成可比的边缘案例覆盖，这就是为何 Waymo 大量投资于仿真。

第 3 节 — 架构比较：模块化 vs 端到端

维度	Waymo（模块化）	Tesla（端到端）	判断
可解释性	高——每个模块有可检视输出；工程师可精确诊断故障	低——“为何左转？“很难从神经网络内部状态回答	Waymo 优势（调试与监管说明）
可认证性	高——基于规则的安全层、可分离模块、组件可形式验证	低——认证黑盒神经网络是开放研究问题	Waymo 优势（形式安全案例）
可扩展性（地理）	较低——每个城市需要 HD 地图（时间+成本）；传感器套件昂贵	较高——无地图 FSD 可在任何有道路的城市运作	Tesla 优势（地理规模）
可扩展性（边缘案例）	较低——模块化系统需要对新边缘案例类别进行明确工程设计	较高——端到端通过训练数据学习新行为	Tesla 优势（若车队数据足够）
开发速度	较慢——更改一个模块需验证与所有其他模块的交互	较快——重新训练整个模型；改进自动出现	Tesla 优势（迭代速度）
故障模式	可预测——每个模块有已定义的故障模式；安全监视器捕获模块故障	较不可预测——新型输入分布可能导致意外输出	Waymo 优势（对安全至关重要）
传感器成本	高——每辆车激光雷达+摄像头+毫米波；传感器成本 $5,000-15,000+（估计）	低——仅摄像头；硬件成本最低	Tesla 成本优势
地图维护成本	高——每个城市需要持续地图更新	零——无地图维护	Tesla 优势（规模化时）
目前技术水平	Waymo 模块化系统是当今已验证的无人驾驶商业方案	Tesla FSD v12/v13 端到端是当今改进最快的有监督驾驶系统	两者在各自部署体制中均处于技术前沿

第 4 节 — 收敛论

趋势	证据	含义
行业向端到端收敛	Waymo、Mobileye 等模块化堆栈公司正在向模块化流水线中加入神经端到端组件（混合方法）	端到端可能是长期赢家；模块化公司正在向其靠拢
Tesla 加入结构化输出	Tesla 的占用网络和车道预测在端到端输出之上增加了结构——向模块化概念的部分收敛	混合架构可能优于任何一方的纯版本
学术共识转移	主要 AV 研究团队的论文越来越多地使用端到端架构；Waymo 自己的研究论文也展示了端到端实验	学术动力在端到端，最终将流入行业
基于 LLM 的规划涌现	Wayve 等公司和主要实验室的早期实验正在使用大型语言模型作为规划器	LLM 规划器可能取代模块化和传统端到端；Waymo 和 Tesla 都在实验
模仿 vs 强化学习	当前端到端系统（包括 Tesla）主要是模仿学习；RL 训练系统可超越人类行为	Tesla 和 Waymo 都在探索 RL；RL 可能是下一个突破点

第 5 节 — 软件堆栈基准评分卡

维度	Waymo	Tesla	优势方
目前无人驾驶可靠性	已验证——每周 150,000+ 次乘车，1,000 万+ 无人驾驶英里（估计）	尚未无人驾驶（仅有监督 FSD）	Waymo
可解释性与可调试性	高（模块化）	低（端到端黑盒）	Waymo
地理可扩展性	较低（每个城市需要 HD 地图）	较高（无地图 FSD）	Tesla
边缘案例学习速度	较慢（需工程设计+重新训练）	较快（车队数据→重新训练→部署）	Tesla
监管可认证性	较高（基于规则的层、可检视模块）	较低（神经网络认证问题未解决）	Waymo
每辆车传感器成本	高（~$5K-15K 激光雷达+摄像头+毫米波估计）	低（仅摄像头）	Tesla
架构走向	向混合收敛（加入端到端组件）	向混合收敛（加入结构化输出）	平局——两者都朝混合架构发展
长期赢家	不确定——模块化在安全可解释性上胜出；端到端在可扩展性上胜出；混合可能是答案	—	开放问题；Physical AI 中最重要的未解争论

评分卡揭示了 AV 行业尚未解决的根本张力。Waymo 在今日安全认证和监管批准最重要的每个维度上都领先；Tesla 在商业快速规模化最重要的每个维度上都领先。技术轨迹表明这些优势将收敛。2020 年代的 AV 架构争论或许会被记住，不是两种不可调和范式之间的战斗，而是行业通过先构建两个极端、再发现各自缺失的方式，学到混合架构应当是什么样子的十年。

注意： 所有标记「（估计）」的数据均源自截至 2026 年中的公开披露、研究出版物、分析师估计及行业报告。本文不构成投资建议。