2026-06-18 — views

Waymo Driver软件架构——驱动全球最大无人驾驶车队的六层技术栈深度解析

Waymo模块化六层技术栈——感知、世界建模、预测、规划、控制——是其安全记录背后的技术基础。

实体 AI 基准系列第 42 篇：Waymo Driver 软件架构

Waymo Driver 是驱动全球最大商业化无人驾驶车队的自主驾驶软件技术栈。截至 2026 年中，Waymo 在旧金山、洛杉矶、凤凰城和奥斯汀四座城市，每周提供超过 10 万次无人驾驶乘车服务——全程无安全员在车内。理解这套软件的架构设计，是读懂其安全记录的根本，也是解析 Waymo 如何在新城市完成上线，以及过去 16 年技术积累形成了哪些壁垒的关键所在。本文是本系列 Tesla FSD 架构文章的技术对照篇。

与 Tesla 的端到端神经网络不同——后者从传感器输入直接生成方向盘转角、油门和制动指令，整套系统由单一学习模型完成——Waymo 的架构是显式模块化的。每一层都有明确定义的输入、明确定义的输出，以及有界的故障模式。这种模块化并非偶然，而是 Waymo 对一个核心工程问题的深思熟虑的回答：如何构建一套在形式上可验证到足以在无安全员的条件下商业化运营的系统？

第一节：六层技术栈详解

业界通常将其简化为”五层”，但在 Waymo 的实际系统中，传感器处理层与感知层是分开的，因此共有六层。

层级	功能	Waymo 的做法	Tesla 的做法
1. 传感器处理	原始传感器数据 → 经过清洗与标定的点云和图像	LiDAR + 摄像头 + 毫米波雷达融合；专有传感器标定流水线	纯摄像头；实时图像处理；无 LiDAR
2. 感知	传感器数据 → 带位置和速度的目标物体（车辆、行人、骑行者、锥桶）	多模态融合：LiDAR 提供精确三维几何，摄像头补充外观、颜色与文字，毫米波雷达提供速度	纯摄像头；端到端神经网络直接从图像流预测目标物体
3. 世界建模	目标物体 → 当前环境的语义地图（车道、交通信号、施工区域）	高精地图 + 实时传感器更新；语义地图层包含车道连通性、信号相位与合规行为规则	稀疏地图或无地图；依赖神经网络从摄像头推断车道结构
4. 预测	当前世界状态 → 所有参与者的未来状态概率分布	带不确定性建模的结构化轨迹预测；考量社会规范与交通惯例	端到端：预测隐含于策略网络中，并非独立模块
5. 规划	预测的未来状态 → Waymo 的预期轨迹（路径 + 速度剖面）	多假设规划：生成 N 条候选轨迹，分别按安全性、舒适度与交规打分，择优选取	端到端：规划隐含于策略网络中，并非独立模块
6. 控制	预期轨迹 → 转向、油门和制动指令	模型预测控制（MPC）：以预测补偿跟踪规划轨迹	端到端：控制直接从策略网络输出

每一层的分工边界清晰，这是 Waymo 架构与 Tesla FSD 最本质的区别。LiDAR 在传感器处理层提供高精度三维几何信息，摄像头在感知层补充语义信息（颜色、文字、物体类别），毫米波雷达在速度估计上形成独立校验。多模态融合意味着任何单一传感器的失效都不会导致整个感知层崩溃。

第二节：模块化架构为何对安全至关重要

每一层均可独立验证：

感知层的误差可被检测并限界——若 LiDAR 与摄像头对某目标的判断存在分歧，可将该目标标记为不确定；
预测层的误差可被量化——预测的行人轨迹与实际轨迹的吻合率可以被系统性地度量；
规划层可在仿真中针对规则集进行形式验证——该轨迹是否在任何情况下违反交通法规；
控制层可在已知轨迹基准下独立测试。

Tesla 的端到端架构是一个单一神经网络。优势在于简洁与泛化能力强；劣势在于难以形式验证——你无法将”预测缺陷”从”规划缺陷”中分离出来，因为它们根本不是独立模块。

对于规模化商业部署而言，Waymo 的模块化方法带来了三个关键能力：

逐层调试能力： 当一名行人被错误分类时，故障被定位至感知层，而不是弥漫至整个策略网络。工程师可以直接针对感知层的训练数据、模型权重或后处理规则进行修正，而无需触碰规划或控制层。

逐层安全监控： 独立的安全检查器可以在每一层的输出传入下一层之前进行验证。这种分层安全架构使得单层的异常输出能够在传播至下游之前被截断和处理。

高精地图作为硬约束： 地图提供了策略网络无法覆盖的物理真值——“这是单行道”是一个硬约束，而非学习出来的偏好。当实时感知结果与地图信息出现冲突时，地图的硬约束层能够阻止系统做出合规性违反决策。

第三节：高精地图——优势与代价

维度	高精地图（Waymo）	无地图方案（Tesla）
建图区域内的安全性	高——地图提供物理真值；传感器融合填补时序空白	良好——神经网络对建图与未建图区域一视同仁
扩张速度	慢——每座新城市需要数月的建图与验证工作	快——FSD 可在任何有 Tesla 行驶过的道路上运行
施工区域与临时事件处理	需要频繁更新地图；Waymo 维持专属建图车队	神经网络动态处理（无需更新地图）
边缘情况处理	在建图区域内处理良好；超出地图覆盖范围后性能下降	取决于训练数据中是否包含类似场景
地图更新延迟	车队实时更新；重大变更进行批量更新	无地图需要更新

高精地图是 Waymo 进入一座新城市通常需要 6 至 12 个月（估）的根本原因。建图、标注与仿真推演必须在第一辆车投入商业运营之前全部完成。这是 Waymo 城市扩张速度的结构性制约，但也是其在已建图区域内安全性能的核心来源。高精地图赋予规划层一个不可动摇的语义基础：车道连通拓扑、法定限速、禁止转向、信号灯位置——这些信息以离线高精度采集，并通过车队实时反馈持续更新。

第四节：仿真管线——Waymo 对 Tesla 数据飞轮的回应

Waymo 的仿真引擎对外公开称为”Carcraft”。其核心组件如下：

智能体行为模型： 基于 Waymo 真实无人驾驶里程训练而成，用于在仿真场景中填充具有真实感的人类驾驶员、骑行者与行人。

传感器仿真： LiDAR、摄像头和毫米波雷达信号通过物理建模方式进行仿真——LiDAR 采用光线追踪，摄像头采用神经辐射场（est.）。

场景提取： 从车队日志中提取真实世界边缘情况，进行标注，并以大规模方式插入仿真。这是将真实世界的低概率事件转化为高密度训练信号的核心机制。

对抗性测试： 仿真系统主动生成在真实数据中极为罕见的极端场景，强制测试系统在最坏情况下的行为边界。

据报道，Waymo 每天运行数十亿次仿真里程（est.）。每一真实无人驾驶里程通过提取管线生成约 1,000 次仿真里程（est.）。这是 Waymo 对 Tesla 50 至 60 亿公里有监督真实里程的不对称回应：真实里程更少，但通过高质量的针对性仿真进行补偿。仿真所能提供的，是真实道路数据中无法批量采集的东西——以任意密度生成极端场景，以及对任意假设性情况进行反事实测试。

第五节：城市上线六阶段流程

第一阶段：建图。 专属建图车辆采集 LiDAR、摄像头与 GPS 地面真值数据（估计耗时 3 至 6 个月/城市）。

第二阶段：标注与语义标记。 对地图特征进行人工标注——车道边界、交通信号灯、人行横道、停车标志等。这一阶段决定世界建模层所能依赖的语义地图质量。

第三阶段：仿真推演。 针对该城市特有的几何结构与交通模式生成仿真场景。已在其他城市训练的通用模型在此阶段针对新城市的特点进行适配与测试。

第四阶段：影子模式与有监督测试。 Waymo 车辆在新城市进行有安全员监督的试运营，所有人工干预（脱离事件）被记录和分析。这一阶段的数据直接用于下一阶段的安全案例构建。

第五阶段：无人驾驶验证。 系统性的安全案例构建，针对该城市的运行条件证明安全性（估计历时 3 至 6 个月）。

第六阶段：商业上线。 地理围栏服务区，24 小时全天候运营。

从建图启动到商业上线，估计总耗时为 12 至 24 个月/城市。这一时间线是 Waymo 与 Tesla 竞争地位的核心不对称之处——Tesla FSD 能在任何 Tesla 行驶过的道路上运行，而 Waymo 的每一条服务路段都需要提前完成上述六个阶段。

第六节：两种架构哲学的理性对赌

Waymo 的架构是一种深思熟虑的工程选择——扩张更慢、规模化难度更高，但在形式可验证性和建图区域内每英里安全性方面具有结构性优势。Tesla 的端到端方法是一种对赌——扩张更快、形式验证难度更高，但理论上可以覆盖更广泛的地理范围。

两种选择在各自的出发点和资本结构下都是理性的。Waymo 从 Google 的研究文化和 Alphabet 的长期资本中成长起来，形成了以可验证性为核心优先级的工程文化。Tesla 从数百万已售出车辆的数据飞轮出发，形成了以快速覆盖为核心优先级的工程路线。

本系列后续文章将聚焦 Waymo 第六代车辆硬件架构——分析新传感器套件设计对该六层软件栈各层的具体影响。

关于本系列

本文为实体 AI 基准系列第 42 篇，聚焦 Waymo Driver 六层软件架构的技术解析。本系列持续跟踪实体 AI 系统——自动驾驶、机器人、工业自动化——在真实商业运营中的可验证技术进展。所有标注”（估）“的数据来源于公开披露、监管申报及第三方分析，并非 Waymo 官方公布数字。