2026-06-18 — views
自动驾驶模拟——Waymo与Tesla如何在数十亿虚拟里程上训练自动驾驶系统
Waymo每年模拟200亿英里;Tesla通过Dojo训练600万辆车的视频——模拟是拉开自动驾驶差距的关键乘数。
实体AI基准系列第74篇——自动驾驶模拟与合成数据
你无法通过等待真实道路上的事件,来训练自动驾驶车辆应对行人闯红灯、高速爆胎或儿童冲入车道的情况。模拟是训练乘数——它让自动驾驶公司在真实车辆遇到危险之前,就能在软件中反复遭遇数十亿次罕见且危险的场景。
Waymo估计每年执行约200亿英里的模拟里程(估计值)。Tesla通过Dojo超级计算机对来自600万辆真实车辆的视频进行训练。自动驾驶领导者与追赶者之间的差距,不仅在于实际行驶里程,更在于模拟能力、合成训练数据的规模,以及从真实边缘案例到模拟训练环境的闭环速度。
本文将梳理模拟架构、合成数据管线,以及模拟能力对实体AI跃升基准的意涵。
第一节——为何模拟不可或缺
自动驾驶训练的根本问题在于长尾:真实驾驶场景的分布极广,但对安全最重要的场景——罕见、危险、几乎酿成事故的事件——在有机的真实数据中出现频率极低。等待这些事件在真实道路上发生,并不是可行的训练策略。
| 训练挑战 | 真实道路方法 | 模拟方法 |
|---|---|---|
| 罕见但关键的事件 | 等待行人闯红灯——每百万英里可能只发生一次 | 以随机化的时机、速度和车辆位置,生成数百万个合成的闯红灯场景 |
| 致命场景 | 无法故意让真实车辆撞向骑行者 | 以完整物理保真度模拟碰撞;零成本训练避免策略 |
| 边缘案例覆盖 | 真实车队有机积累数据——速度慢且存在地理偏差 | 模拟可为任何地理环境、天气、时段、交通密度生成数据 |
| 策略迭代速度 | 部署新软件→积累真实里程→评估:每轮需数周 | 在模拟中测试新策略→数小时内评估;迭代速度快100倍 |
| 边角案例(长尾) | 真实数据中罕见场景的长尾长得难以穷尽 | 模拟可按需生成有针对性的长尾场景 |
| 安全性 | 在真实道路上训练真正危险的场景根本不可能 | 模拟本质上安全;对人员和设备零风险 |
核心模拟原则:每1英里的真实驾驶数据,都可以衍生出数千种模拟变体——不同天气、不同道路使用者、不同初始条件。能够最有效执行模拟的公司,能比任何纯依赖真实里程的公司更快改进其策略网络。
第二节——Waymo的模拟平台:Carcraft
Waymo运营的Carcraft是一个内部模拟平台,与其真实世界的自动驾驶项目并行构建了超过十年。Carcraft不是辅助工具——它是Waymo的主要训练环境。
| 属性 | 详情 |
|---|---|
| 名称 | Carcraft(Waymo的内部模拟平台) |
| 规模 | Waymo表示每年运行约200亿模拟英里(估计值) |
| 架构 | 高保真物理模拟;真实传感器建模(激光雷达点云、相机渲染、雷达回波);其他车辆、行人、骑行者的代理行为模型 |
| 传感器模拟 | Waymo模拟完整的传感器套件——模拟的激光雷达点云必须具备足够的物理精确度,使真实感知堆栈能够直接处理而无需修改 |
| 场景生成 | 将真实驾驶数据反馈至模拟,对真实道路上遭遇的边缘案例进行系统性变体生成 |
| 代理行为 | Waymo模拟中的其他车辆与行人,以从真实世界观测中提取的校准行为分布进行建模 |
| 基础设施 | 在Google Cloud TPU上运行(Google拥有Waymo,得以取用大规模算力);估计为全球任何产业中规模最大的专用模拟算力集群之一(估计值) |
| 真实到模拟的闭环 | 当真实Waymo车辆遭遇意外情况时,该场景会自动纳入模拟进行训练和回归测试 |
真实到模拟的闭环是Waymo的结构性优势:每一个真实世界的边缘案例都能在数小时内成为模拟训练数据。一辆在旧金山遭遇罕见行人行为的车辆,可以触发数千种该场景的合成变体生成——不同速度、不同光线、不同天气——在下一次软件更新发布之前完成训练。
Carcraft的规模也使得回归测试可以达到真实世界测试无法企及的水准。Waymo每次发布软件更新前,都必须在模拟中通过针对数万个先前记录场景的回归测试,才能让真实车辆运行更新后的代码。这就是模拟安全网。
第三节——Tesla的方法:真实视频加Dojo
Tesla的训练哲学与Waymo根本不同。Waymo构建合成世界,Tesla则收割真实世界。
| 属性 | Tesla | Waymo |
|---|---|---|
| 主要训练数据 | 来自600万辆以上车队的真实视频(拍字节量级的真实世界相机影像) | 来自约1,500辆自动驾驶车辆的模拟加真实里程 |
| 模拟角色 | 次要——Tesla在特定场景使用模拟,但真实视频是主体 | 主要——每年数百亿模拟英里(估计值) |
| Dojo | 专为大规模视频训练打造的超级计算机;定制D1芯片针对芯片间带宽优化 | 使用Google Cloud TPU(Google母公司关系) |
| Dojo D1芯片 | 7nm定制芯片;362 TFLOPS FP16;芯片间900 GB/s互连——专为分布式视频处理设计 | 不适用 |
| 训练目标 | 训练神经网络将8个相机图像直接映射至驾驶决策(大规模端到端或模仿学习) | 分别训练感知、预测、规划模块;模拟分别覆盖各模块 |
| 优势 | 真实世界数据分布——模型在现实中见到真正的边缘案例 | 可为任何场景生成无限合成数据;不受车队规模限制 |
| 劣势 | 无法在不等待真实发生的情况下训练罕见或危险场景 | 模拟保真度落差——模拟传感器数据与真实传感器数据并不完全相同 |
Dojo是Tesla对Waymo TPU集群取用能力的回应。D1芯片专为Tesla面临的特定计算瓶颈而设计:处理来自数百万辆车的拍字节连续视频,并在这些数据上实时训练大型神经网络。传统GPU集群在分布式视频训练的内存带宽需求上表现吃力,D1的900 GB/s芯片间互连正是为解决这个具体瓶颈而设计。
Tesla的真实数据飞轮创造了另一种复利优势。每一英里由Tesla车主驾驶的FSD里程都会生成训练数据。随着车队增长,训练数据也按比例增长——关键在于,它以模型部署后会遇到的真实世界场景分布增长。Waymo必须在模拟中工程化这种分布;Tesla只是在收集它。
第四节——模拟到真实的落差:尚未解决的问题
以模拟为重心的方法有一个根本限制,即模拟到真实的落差:仅在模拟数据上训练的模型,在部署于与模拟在细微之处存在差异的真实传感器输入时,可能表现不佳。
| 挑战 | 描述 | 现状 |
|---|---|---|
| 传感器保真度 | 模拟激光雷达点云必须与真实激光雷达点云足够接近,使模型能从模拟泛化到真实 | Waymo已大量投资高保真传感器模拟;仍不完美——仅在模拟数据上训练的模型在真实数据上表现逊色 |
| 行为真实性 | 模拟的行人和驾驶员必须像真人一样行动 | 从真实数据校准的行为模型有帮助;极端罕见行为仍难以建模 |
| 领域随机化 | 策略:广泛随机化模拟参数,使模型学会对任何模拟变体具有鲁棒性,从而更好地迁移到真实世界 | 对部分场景有效;对其他场景不足 |
| NeRF与高斯溅射 | 新方法:将真实场景从相机视频重建为3D神经表示;从新视角重新渲染以生成训练数据 | Waymo、Nvidia等正在使用神经场景重建缩小模拟到真实的落差;前景看好但计算密集 |
| UniSim与GAIA | Waymo(UniSim)等正在构建从真实世界输入生成照片级真实传感器数据的神经模拟器 | 活跃研究领域;减少对手工物理模拟的依赖 |
领域随机化——故意在模拟参数中引入变体——是模拟到真实迁移的第一个系统性策略。通过在光线、纹理、天气和传感器噪声随机化的模拟上训练,模型对特定模拟器的具体缺陷变得更具鲁棒性。但单靠领域随机化,尚未能在所有条件下将落差缩小到生产自动驾驶部署所需的水准。
NeRF和高斯溅射方法代表了一种根本不同的策略:不从头构建合成世界,而是在3D神经表示中捕捉真实世界,并在任何视角或任何条件下重新渲染。Waymo车辆在旧金山记录的场景,可以在雨中、夜间重新渲染,添加被遮挡的行人——而无需物理模拟管线从头建模这些条件。
第五节——模拟作为竞争护城河
模拟能力已成为自动驾驶竞赛中的主要竞争维度。能够更快、更准确、更大规模进行模拟的公司,可以比任何更多依赖真实测试的竞争对手更快迭代策略。
| 维度 | 领先者 | 重要性 |
|---|---|---|
| 每年模拟英里数 | Waymo(约200亿英里,估计值) | 更多模拟英里等于更多边缘案例覆盖,等于更安全的真实世界表现 |
| 模拟算力 | Waymo(Google TPU取用)vs Tesla(Dojo) | 算力规模决定策略迭代速度 |
| 真实到模拟管线 | Waymo(Carcraft真实到模拟闭环) | 更快将真实边缘案例纳入模拟意味着更快改进 |
| 神经模拟 | 积极竞逐(Waymo UniSim、Nvidia COSMOS等) | 下一个前沿:照片级真实神经模拟器消除模拟到真实的落差 |
| 场景库 | Waymo(建立10年以上的最大场景库) | 深度场景库难以复制——需要多年工程积累 |
| 数据飞轮整合 | Tesla(真实车队→真实视频→训练→更好模型→更大车队) | Tesla的优势:大规模真实数据;模拟为辅 |
Nvidia COSMOS(2025年): Nvidia于2025年初推出COSMOS——一个用于实体AI模拟的世界基础模型。COSMOS生成照片级逼真的合成视频,用于训练机器人和自动驾驶系统。它代表了首个以产品形式提供的通用神经世界模拟器——有望让没有Waymo或Tesla内部模拟基础设施的公司也能取用高保真模拟。对于规模较小的自动驾驶项目,COSMOS将生成高质量合成数据的门槛,从多年的工程投资降低到了算力预算的问题。
场景库优势尤为持久。Waymo花费超过十年构建了一个边缘案例、罕见事件和边角场景的库——每一条都被标记、分类,并随着真实车队遭遇新情况而持续新增。今天进入模拟竞赛的竞争对手,需要从头工程化Waymo已经编目的所有边缘案例,还要建立物理模拟基础设施。这形成了一条随着每年运营而不断加深的复利护城河。
第六节——关于本系列
本篇是实体AI基准系列的第74篇。此前文章涵盖了跃升指数、人形机器人竞赛、单位经济学、全球竞争、高精地图、软件与OTA、消费者需求、竞争护城河、Cybercab vs Model Y、安全数据、Waymo第六代、Optimus制造、计分卡快照、2030年预测情景、投资者框架、城市扩张管线、Tesla FSD州批准地图、自动驾驶天气与气候限制、人才战、监管日历、机器人出租车费率定价、人形机器人部署追踪器、供应链分析、消费者采用需求指数、估值与IPO分析、实体AI 2026年中盘点、自动驾驶每英里成本分析、自动驾驶数据飞轮比较、自动驾驶网络安全攻击面、实体AI供应链、自动驾驶车队运营、自动驾驶保险与责任演变、实体AI全生命周期环境成本、老年人与残障人士的无障碍层、地图架构比较,以及中国自动驾驶竞赛。
本篇新增模拟维度:合成训练基础设施让自动驾驶领导者能够以超越任何真实车队的速度积累训练经验——以及神经世界模型的前沿,这将在未来五年重塑谁掌握模拟优势。
注意: 模拟里程估计、车队规模、芯片规格和竞争评估标注为「(估计值)」,反映了公开可用信息、公司披露及行业分析。本文不构成投资建议。
来源
- Waymo模拟与Carcraft——Waymo技术博客 ↗
- Tesla Dojo超级计算机——Tesla AI ↗
- Nvidia COSMOS世界基础模型——Nvidia ↗
- Waymo UniSim神经闭环传感器模拟器——Waymo研究 ↗
- 自动驾驶模拟——斯坦福HAI ↗