Skip to content
AI-Daily-Builder

2026-06-18 views

Physical AI 软件堆栈架构 — Waymo 模块化流水线 vs Tesla 端到端神经网络:AV 史上最关键技术决策

Waymo 采用可解释模块化流水线;Tesla 押注 600 万辆车队训练的端到端神经网络;两者正朝混合架构收敛。

Physical AI 基准系列第 136 篇 — Physical AI 软件堆栈架构:Waymo 模块化流水线 vs Tesla 端到端神经网络,以及为何堆栈选择是 AV 史上最关键的技术决策

自动驾驶工程领域最大的未解争论,不在于传感器、地图或城市——而在于架构。你应该构建模块化流水线(感知、预测与规划各由独立模型处理,每个阶段都有可解释的中间输出)?还是构建端到端神经网络(原始传感器数据直接输入神经网络,输出方向盘、油门与刹车指令,完全靠真实车队视频训练)?Waymo 选择了模块化;Tesla 选择了端到端。这不仅是技术偏好——它决定了安全哲学、监管立场、调试能力,以及最终谁能更快扩展、扩展到哪些地区。这是 Physical AI 基准系列第 136 篇。

所有标记「(估计)」的数据均源自公开披露、研究出版物、行业分析师估计及合理推断,而非独立验证的第一手资料。


第 1 节 — Waymo 的模块化堆栈

Waymo 的软件架构是一个分层模块化流水线。每一层接收下层的输出,使用一个或多个专用神经网络或规则系统进行处理,并将结构化表示向上传递。设计理念根植于传统软件工程:关注点分离、独立测试每个组件,确保任何故障都能在模块层面诊断。

模块功能技术核心优势
感知接收原始传感器数据(激光雷达+摄像头+毫米波),产生结构化世界表示:车辆、行人、骑手、道路标线、交通信号多个专用神经网络(每类对象每个传感器各一个);传感器融合合并输出每个感知模型可独立测试、验证与更新;安全工程师可检视中间输出
预测接收感知的结构化世界模型,预测所有交通参与者的未来轨迹MultiPath++(Waymo 发表的轨迹预测模型);输出未来状态的概率分布概率输出使不确定性显式化;规划器可具备风险意识
规划接收预测轨迹,为 Waymo 车辆生成安全、舒适的驾驶计划MotionCNN + 行为克隆 + 基于规则的安全层;生成多个竞争计划并评分基于规则的安全层 = 神经网络不得违反的硬性约束(如永不越过双黄线)
控制将规划输出转换为精确的方向盘、油门与刹车指令传统控制理论(PID 控制器);与规划可分离可预测、可认证、可供监管机构检视
HD 地图提供道路结构、车道几何、交通信号位置的先验知识Waymo 专有 HD 地图(通过车队持续更新)降低感知不确定性;激光雷达可对照地图以厘米精度定位
仿真在部署前于合成环境中测试各模块及完整堆栈Waymo 的 Simulation City;基于 NeRF 的场景重建1 英里真实数据生成 1,000+ 个仿真变体(估计)
安全监视器可覆盖所有其他模块并让车辆安全停车的独立看门狗基于规则;非神经网络;设计为可被证明正确最终安全保障;监管信任的关键

模块化设计有一个根本性的结构优势:它创造了自然的审计点。当 Waymo 车辆做出意外决策时,工程师可以检视感知层输出,验证对象是否被正确检测,然后检视预测层了解对每个交通参与者预测了哪些轨迹,再检视规划层了解选择了哪个计划及原因。这是由架构带来的可解释性——不是后来加上的功能,而是系统基本设计的组成部分。


第 2 节 — Tesla 的端到端堆栈(FSD v12+)

Tesla 的完全自动驾驶(FSD)第 12 版代表了一次根本性的架构转变:从模块化系统转向端到端神经网络。在 FSD v12 及以后,来自 Tesla 8 个摄像头的原始视频流入神经网络,直接输出驾驶计划——没有明确的对象检测,没有明确的轨迹预测,关键路径中没有手写规则。神经网络通过模仿人类驾驶员学习驾驶,训练数据集包含数百亿英里(估计)的有介入记录的视频。

组件功能技术核心优势
视频分词器将 8 个摄像头的视频转换为神经网络可处理的 tokenTesla 自定义视频分词器;类似 Vision Transformer 概念同时处理空间+时间上下文;无需手写对象检测
端到端神经网络接收分词视频(过去+现在帧)直接输出驾驶计划(轨迹+速度曲线)Transformer 架构;在 600 万+ 车队数据上训练;无中间结构化表示学习工程师无法明确编程的驾驶行为;通过训练数据规模处理长尾场景
占用网络预测车辆周围空间的 3D 占用情况神经占用预测;替代传统对象检测+追踪处理不符合预定义类别的对象(垃圾袋、特殊车辆)
自动标注流水线自动标注车队视频用于训练(避免大规模人工标注)神经标注模型;人工审查边缘案例无需按比例增加人工标注成本即可扩展至数十亿英里
无 HD 地图FSD v12+ 不需要预先构建的 HD 地图基于视觉的实时摄像头观测定位在 Waymo 未建图的城市中运作;无地图维护成本的地理扩展
Dojo 训练集群大规模训练端到端模型Tesla 自定义 D1 芯片、ExaPOD 集群(1+ ExaFLOP 估计)每次模型更新的训练成本可能低于租用 H100 集群(估计)
介入式学习驾驶员介入(接管 FSD)被记录为边缘案例的训练信号基于人类纠正的监督学习600 万+ 车队产生大量介入数据

车队数据飞轮是 Tesla 方法最关键的结构优势。超过 600 万辆在路上行驶的车辆持续生成视频,Tesla 积累了几乎无限的驾驶数据——包括最难在小型车队中遇到的罕见边缘案例。Waymo 小得多的车队无法从真实世界数据量单独生成可比的边缘案例覆盖,这就是为何 Waymo 大量投资于仿真。


第 3 节 — 架构比较:模块化 vs 端到端

维度Waymo(模块化)Tesla(端到端)判断
可解释性高——每个模块有可检视输出;工程师可精确诊断故障低——“为何左转?“很难从神经网络内部状态回答Waymo 优势(调试与监管说明)
可认证性高——基于规则的安全层、可分离模块、组件可形式验证低——认证黑盒神经网络是开放研究问题Waymo 优势(形式安全案例)
可扩展性(地理)较低——每个城市需要 HD 地图(时间+成本);传感器套件昂贵较高——无地图 FSD 可在任何有道路的城市运作Tesla 优势(地理规模)
可扩展性(边缘案例)较低——模块化系统需要对新边缘案例类别进行明确工程设计较高——端到端通过训练数据学习新行为Tesla 优势(若车队数据足够)
开发速度较慢——更改一个模块需验证与所有其他模块的交互较快——重新训练整个模型;改进自动出现Tesla 优势(迭代速度)
故障模式可预测——每个模块有已定义的故障模式;安全监视器捕获模块故障较不可预测——新型输入分布可能导致意外输出Waymo 优势(对安全至关重要)
传感器成本高——每辆车激光雷达+摄像头+毫米波;传感器成本 $5,000-15,000+(估计)低——仅摄像头;硬件成本最低Tesla 成本优势
地图维护成本高——每个城市需要持续地图更新零——无地图维护Tesla 优势(规模化时)
目前技术水平Waymo 模块化系统是当今已验证的无人驾驶商业方案Tesla FSD v12/v13 端到端是当今改进最快的有监督驾驶系统两者在各自部署体制中均处于技术前沿

第 4 节 — 收敛论

趋势证据含义
行业向端到端收敛Waymo、Mobileye 等模块化堆栈公司正在向模块化流水线中加入神经端到端组件(混合方法)端到端可能是长期赢家;模块化公司正在向其靠拢
Tesla 加入结构化输出Tesla 的占用网络和车道预测在端到端输出之上增加了结构——向模块化概念的部分收敛混合架构可能优于任何一方的纯版本
学术共识转移主要 AV 研究团队的论文越来越多地使用端到端架构;Waymo 自己的研究论文也展示了端到端实验学术动力在端到端,最终将流入行业
基于 LLM 的规划涌现Wayve 等公司和主要实验室的早期实验正在使用大型语言模型作为规划器LLM 规划器可能取代模块化和传统端到端;Waymo 和 Tesla 都在实验
模仿 vs 强化学习当前端到端系统(包括 Tesla)主要是模仿学习;RL 训练系统可超越人类行为Tesla 和 Waymo 都在探索 RL;RL 可能是下一个突破点

第 5 节 — 软件堆栈基准评分卡

维度WaymoTesla优势方
目前无人驾驶可靠性已验证——每周 150,000+ 次乘车,1,000 万+ 无人驾驶英里(估计)尚未无人驾驶(仅有监督 FSD)Waymo
可解释性与可调试性高(模块化)低(端到端黑盒)Waymo
地理可扩展性较低(每个城市需要 HD 地图)较高(无地图 FSD)Tesla
边缘案例学习速度较慢(需工程设计+重新训练)较快(车队数据→重新训练→部署)Tesla
监管可认证性较高(基于规则的层、可检视模块)较低(神经网络认证问题未解决)Waymo
每辆车传感器成本高(~$5K-15K 激光雷达+摄像头+毫米波 估计)低(仅摄像头)Tesla
架构走向向混合收敛(加入端到端组件)向混合收敛(加入结构化输出)平局——两者都朝混合架构发展
长期赢家不确定——模块化在安全可解释性上胜出;端到端在可扩展性上胜出;混合可能是答案开放问题;Physical AI 中最重要的未解争论

评分卡揭示了 AV 行业尚未解决的根本张力。Waymo 在今日安全认证和监管批准最重要的每个维度上都领先;Tesla 在商业快速规模化最重要的每个维度上都领先。技术轨迹表明这些优势将收敛。2020 年代的 AV 架构争论或许会被记住,不是两种不可调和范式之间的战斗,而是行业通过先构建两个极端、再发现各自缺失的方式,学到混合架构应当是什么样子的十年。

注意: 所有标记「(估计)」的数据均源自截至 2026 年中的公开披露、研究出版物、分析师估计及行业报告。本文不构成投资建议。


来源

标签

请喝咖啡