2026-06-18 — views
Tesla FSD 端到端架构——v12 神经网络内部解析,从规则到学习的根本转变
Tesla FSD v12 将 30 万行规则式 C++ 替换为单一端到端神经网络,以数十亿英里监督式驾驶视频训练而成。
实体 AI 基准系列 第 50 篇 — 架构深度解析
软件架构决定了自动驾驶系统的上限。本系列第 42 篇记录了 Waymo 的模块化六层架构——感知、世界建模、预测、规划与控制各自明确分离,每层都有定义好的输入与输出。Tesla FSD v12 代表了截然相反的工程押注:将上述所有层次整合为单一学习式神经网络,输入摄像头画面,并在数十亿英里的人类驾驶行为上训练,直到网络自行学会驾驶。这项 2024 年初公开部署的架构转变,是自 DARPA Grand Challenge 以来自动驾驶行业最具决定性的工程决策之一。
以下所有标注”(估)“的数据为基于公开披露、工程分析与行业报告的估算,未经独立核实,应视为方向性参考而非精确数字。
第一节 — 架构转变:v11 到 v12
v11 及更早版本的 FSD 是模块化系统。感知模块检测物体并估算位置;车道检测模块识别道路几何形状;路径规划计算可行轨迹;控制模块将轨迹转换为方向盘、油门与刹车指令。每个模块均以 C++ 编写并包含手工编写的规则。Tesla AI 前总监 Andrej Karpathy 在 2022 年 AI Day 披露,该代码库已增长至约 30 万行 C++。规则式系统存在一个根本的扩展瓶颈:每个新的边缘情况都需要新的规则,而公路上的边缘情况几乎是无穷无尽的。
FSD v12 以单一端到端神经网络取代了整个管线。输入摄像头画面,输出驾驶动作。下表映射了这一转变的每个维度。
| 维度 | FSD v11 及更早 | FSD v12(端到端) |
|---|---|---|
| 核心方式 | 模块化:感知、车道检测、路径规划、控制——各自独立的手工规则模块 | 端到端:摄像头直接到方向盘、油门、刹车的单一学习策略 |
| 代码行数 | 约 30 万行 C++(Karpathy,2022 AI Day) | 大幅减少——大多数行为是学习而来,而非编写(估) |
| 训练信号 | 每个模块边界的人工标注——物体边界框、车道线标注等 | 从人类驾驶视频进行模仿学习——策略复制人类驾驶员的行为 |
| 泛化能力 | 规则在边缘情况下容易失效;不寻常的路口几何可能破坏手工逻辑 | 神经网络可泛化至训练数据中出现的几何形状 |
| 调试方式 | 逐模块:找出哪个层次失败——感知、预测或规划 | 黑盒:难以隔离特定失败发生的原因 |
| 改进机制 | 工程师编写更多规则;难以扩展至有限情景之外 | 更多数据产生更好的策略;随车队规模自动扩展 |
| 部署范围 | FSD v11 = 单一栈(高速公路与城市合并,仍为规则式) | FSD v12 = 端到端神经策略覆盖所有驾驶场景 |
这一转变的实际效果立竿见影。曾使用 FSD v11 的用户反映 v12 的驾驶行为有质的不同——更流畅、更像人类、更擅长处理无保护左转和复杂路口——不是因为工程师加入了新规则,而是因为网络已从执行这些场景的人类驾驶员处学习。
第二节 — 端到端网络如何运作
Tesla 在其 AI Day 及工程演讲中披露了 FSD v12 的核心架构。以下描述已公开的组件;标注”(估)“的数据为从公开披露推断。
输入
FSD 系统使用八颗摄像头:前方、前左、前右、后方、后左、后右、窄角前方及广角前方。每颗摄像头约捕捉 120 万像素(估)。关键在于,网络处理的不是单帧——而是视频流,同时摄取每颗摄像头的多个帧,以捕捉单张静态图像无法呈现的运动、视差深度与时间上下文。时间脉络在此架构中不是可选功能;而是结构性需求。网络必须看到场景如何演变,而非仅看某一瞬间的静止画面。
较旧 Tesla 硬件上配备的雷达,随着 FSD 转向摄像头优先而被降低优先级。部分市场的新款生产车辆已移除超声波传感器。FSD v12 在推理层面实际上是纯摄像头系统。
架构:占用网络与神经规划器
| 组件 | 功能 |
|---|---|
| 视频编码器 | 处理多摄像头视频流,产生时空特征表示——“占用网络”,一个编码哪些空间被占用、哪些空间空闲的三维网格 |
| 世界模型 | 占用网络隐式建模三维世界几何形状、其他车辆、行人及动态场景元素——不以标注物体方式呈现,而是学习到的空间模式 |
| 神经规划器 | 接受编码后的世界表示并输出轨迹——车辆需跟随的一系列路点 |
| 控制器 | 在执行器层面将路点转换为方向盘角度、油门及刹车指令 |
v12 的核心洞见在于:世界建模与规划之间的边界并不明确。在 Waymo 的六层架构中,每个边界都是设计好的接口。在 Tesla 的端到端网络中,“理解场景”与”决定行动”之间的分隔隐含于学习到的表示中。网络通过观察人类驾驶员行动时所关注的事物,自行决定什么对驾驶重要。无需语义标注要求;网络通过对驾驶行为的梯度下降找到自己的场景表示。
第三节 — 训练:车队规模的模仿学习
从规则到学习的架构转变,需要对应的训练方式转变。各模块的监督学习需要标注边界框、车道标注及显式语义地图——所有这些都需要人工标注员逐帧审查视频。FSD v12 的端到端训练不需要这些。训练信号就是人类驾驶行为:人类驾驶员在每个时刻施加的方向盘角度、油门程度及刹车力度。
| 训练组件 | 详细说明 |
|---|---|
| 数据来源 | 超过 600 万辆启用 FSD 的 Tesla 车辆的视频;人类驾驶员的动作为监督信号 |
| 标注类型 | 人类驾驶动作——方向盘、油门、刹车——而非物体边界框或车道线标注 |
| 规模 | 数十亿视频帧;数百万个驾驶片段(估) |
| 数据筛选 | 影子模式在不接管控制的情况下,与人类驾驶员并行运行 FSD 策略,并识别策略与人类行为发散的片段;这些边缘情况在训练中被优先处理 |
| 算力 | Dojo 超级计算机加上 NVIDIA H100 集群;Tesla 未披露总训练算力预算(估计达数十亿美元) |
| 验证 | 真实世界脱离接管率;仿真回归测试;封闭场地测试 |
此方法的扩展优势在结构上是固有的。每辆在人类驾驶且 FSD 处于影子模式的情况下行驶的 Tesla 车辆,都会自动产生训练数据。没有人工标注员的瓶颈。随着 Tesla 车队行驶更多里程,训练数据集按比例增长,策略也随之改进。这就是 Tesla AI 团队描述为核心竞争护城河的”数据飞轮”:道路上的车辆越多,数据越多;数据越多,策略越好;策略越好,更多人使用 FSD;使用 FSD 的人越多,产生训练数据的车辆越多。
第四节 — v13 与 v14:v12 之后的演进
FSD v12 证明了端到端模仿学习能够产出有效的监督式自动驾驶策略。后续版本针对特定弱点进行了改进,并扩展了地理覆盖范围。
| 版本 | 主要改进 | 时间 |
|---|---|---|
| v12.3 | 首次公开端到端发布;城市驾驶场景较 v11 有显著质量提升;幻影刹车大幅减少 | 2024 年初 |
| v12.5 | 路口处理改进;幻影刹车进一步减少;高速公路汇流改善 | 2024 年中 |
| v13 | 多趟记忆——车辆在特定路线重复使用后学习该路线;高速公路汇流行为改进;脱离接管率较 v12 减少约 30–50%(估) | 2024 年末 |
| v13.2 | 扩展地理覆盖至更多美国州份;加拿大有限部署;行人与骑行者处理改进 | 2025 年初 |
| v14(估) | 高速公路泛化改进;城市质量持续提升;欧洲有限部署准备 | 2025–2026(估) |
FSD 各版本的脱离接管率趋势反映了架构转变的影响。估算基于 Tesla 公开披露及加州 DMV 自动驾驶车辆报告数据;由于驾驶员介入要求及报告方法的变化,版本间直接比较较为复杂。
| 时代 | 每千英里估计重大脱离接管次数 | 备注 |
|---|---|---|
| v11 时代 | 约 0.09(估) | 规则式系统;见加州 DMV 申报 |
| v12 时代 | 约 0.05(估) | 首次端到端部署;大幅降低 |
| v13 时代 | 约 0.03(估) | 在端到端基础上持续改进 |
| 人类驾驶员等效 | 约 0.002(估) | 基于 NHTSA 数据;与 FSD 指标不直接可比 |
v13 的约 0.03 与人类表现的约 0.002 之间仍有约一个数量级的差距。这个差距定义了行业的核心开放问题:端到端方法在持续扩展下,是否能完全弥合这一差距——还是在达到真正无监督机器人出租车部署所需的十亿分之一英里可靠性之前就遭遇瓶颈?
第五节 — 端到端与模块化:尚未解决的争论
Tesla 的 v12 架构证明端到端模仿学习能够产出有效的监督式驾驶策略——FSD 在架构转变后每项可测量指标都有显著改进。但它是否能扩展至具备验证安全等级的无监督全自动驾驶,目前尚无定论。Tesla 的方法与 Waymo 模块化架构之间的争论,是当今自动驾驶工程领域最核心的智识论争。
| 主张 | Tesla 的押注 | Waymo 的反驳 |
|---|---|---|
| 规模通往安全 | 更多监督式里程加上更好的模型,将产生覆盖所有场景的涌现安全行为 | 达到全自动驾驶安全等级需要形式验证,而非统计改进 |
| 泛化能力 | 在足够多样化场景上训练的端到端网络,能泛化至新环境 | 具备高精地图和显式约束的模块化系统,提供神经网络无法超越的硬性行为边界 |
| 可解释性 | 如果系统在规模上可验证地有效,可解释性并非必要 | 监管认证、责任归属及系统性失败调查需要可解释性 |
| 数据效率 | 来自消费者车队的数十亿监督式里程,弥补了缺乏专用机器人出租车数据的不足 | 高质量全自动里程和针对性仿真,比无监督消费者车队数据更有效率 |
两种立场都并非显然错误。Tesla 的架构在监督式驾驶指标上产生了更快的改进轨迹。Waymo 的架构产生了具有更强验证安全记录的示范性全自动商业服务。这些尚不是直接可比的成就——Tesla 尚未在规模上运营完全无人驾驶的商业服务,而 Waymo 也尚未展示接近 FSD 易用性的面向消费者监督式驾驶产品。
此比较所阐明的,是每家公司所下的赌注性质:Tesla 押注规模与架构整合能够收敛至安全。Waymo 押注显式结构与验证是安全的前提,规模单独无法替代。以目前的发展轨迹,到 2027 或 2028 年,双方都将有足够的数据来实证评估这一押注——这比今天做出的任何预测都更有趣。
资料来源:Tesla AI Day 2022 FSD 架构概览(tesla.com/AI);加州 DMV 自动驾驶车辆脱离接管报告(dmv.ca.gov);Andrej Karpathy Tesla AI Day 2021(youtu.be/j0z4FweCy4M);Tesla FSD 版本更新说明(tesla.com/support/car-software-updates)。所有标注”(估)“的数据为基于公开数据、工程分析与行业报告的估算;未经独立核实,可能与一手数据有所差异。
来源
- Tesla AI Day 2022 — FSD 架构概览 ↗
- California DMV 自动驾驶脱离接管报告 — CA DMV ↗
- Andrej Karpathy — Tesla AI — AI Day 2021 ↗
- Tesla FSD 版本更新说明 — Tesla ↗