2026-06-18 — views

实体AI仿真与测试——Tesla影子模式 vs Waymo CarCraft：十亿英里规模的自动驾驶验证

Waymo CarCraft每天运行150亿模拟英里；Tesla影子模式从600万FSD车辆采集真实信号。完整自动驾驶安全论证需要两者。

实体AI基准测试系列第148篇——实体AI仿真与测试基础设施：Tesla影子模式 vs Waymo CarCraft

仿真是自动驾驶开发中的秘密武器。行人在自动驾驶车辆前闯红灯的场景，在真实世界中大约每百万英里才发生一次（估算值）——仅靠真实道路测试，每个边缘案例都需要数年积累才能达到统计置信水平。仿真大幅压缩了这一时程：Waymo的CarCraft每天运行150亿模拟英里（Waymo公开披露），将数十年才能积累的真实边缘案例浓缩成每晚的连续运算。Tesla的影子模式采取互补策略——利用约600万辆（估算值）具备FSD功能的车辆在公共道路上作为持续的真实传感器阵列，从每次司机决策与FSD规划动作出现差异的瞬间中采集信号。

本文为实体AI基准测试系列第148篇，针对仿真为何对自动驾驶开发至关重要、Tesla与Waymo如何建立截然不同的仿真架构、仿真与现实差距对各公司安全论证的影响，以及哪种方法在哪个维度胜出，进行全面基准测试。

所有标注”（估算值）“的数据均来自公开披露、行业研究、分析师估算及已报道资料，并非独立验证的一手资料。本文不构成投资建议。

第一节——仿真为何对自动驾驶开发不可或缺

挑战	真实世界测试限制	仿真解决方案	规模优势
罕见边缘案例	行人在自动驾驶车辆前闯红灯大约每百万英里发生一次（估算值）；在真实世界测试每个场景需要数年	仿真可在数小时内以参数变化重现该场景数百万次	罕见事件速度优势达1000倍以上
故障注入测试	无法在公共道路上安全测试传感器故障（镜头遮挡、雷达阻断）	仿真可在任何时刻注入任何传感器故障，测试系统对感知降级的响应	现实世界无法进行的安全测试
回归测试	自动驾驶软件变更后，需重新执行所有先前测试案例才能确认未破坏既有场景	仿真在每次代码变更后自动重新执行所有测试场景；相当于自动驾驶的CI/CD	持续部署验证
反事实测试	”如果车辆早0.5秒制动会如何？“无法重现真实事故	仿真可以参数变化重播任何事故；支撑事故调查	事后学习加速
规模	Tesla约有600万辆FSD车辆（估算值）；Waymo约有2,500辆（估算值）	仿真将有效测试车队放大100至1000倍	Waymo特别依赖仿真来弥补较小的真实车队
新场景生成	人类驾驶员和特技演员可以生成部分场景；成本高、速度慢	程序化生成可创造无限的场景变体（光线、天气、行人密度、车辆配置）	无限场景多样性

为何真实英里数与仿真都不能单独使用

真实英里数的不可替代性源于一个根本原因：真实世界会产生任何仿真团队都未预料到的全新场景。人类驾驶行为、道路基础设施故障和意外环境条件会产生只在野外才出现的边缘案例。无论仿真多么精密，都只能测试人类设计师或程序化生成器已参数化的场景。真实世界才是验证所有仿真场景的最终基准。

然而，单靠真实英里数来达到必要的统计置信水平也不切实际。兰德公司的研究估算，自动驾驶车辆需要行驶约110亿英里，才能在统计上证明其安全性优于人类驾驶员的死亡率。以每辆车每天100英里计算，1万辆车的车队需要约30年（估算值）才能积累足够的里程。仿真是压缩验证时程的唯一可信途径。

正确的架构需要两者并用：真实世界驾驶用于发现新场景并提供基准验证，仿真用于彻底测试已发现的场景、对每次代码变更进行回归测试，以及生成在公共道路上测试过于危险或过于罕见的对抗性边缘案例。

第二节——Tesla影子模式：架构与规模

元素	细节	备注
影子模式是什么？	Tesla FSD在所有具备FSD功能的车辆上静默并行运行，比较FSD的决策与驾驶员实际行为；记录差异	每辆启用FSD的Tesla都是持续的影子模式数据点；约600万辆车（估算值）的每次行程
规模（估算值）	每天在约600万辆FSD车队（估算值）上进行数百万次影子模式比对	行业规模最大的真实世界影子模式数据集，遥遥领先
影子模式检测什么	FSD会做出与驾驶员不同决策的案例；FSD会更早制动、更早转向等	并非所有FSD偏差都代表FSD有误；部分是FSD比驾驶员更谨慎；需要人工审核标注
Dojo在影子模式中的角色	Dojo大规模处理影子模式视频片段；训练FSD达到或超越人类驾驶员行为	影子模式数据输入Dojo训练，产生更好的FSD，再产生更好的影子模式信号——形成飞轮效应
限制：基准真相质量	影子模式使用真实传感器数据而非仿真；但”基准真相”是驾驶员行为，而非最优行为	驾驶员行为是训练信号；若驾驶员犯错，FSD会从错误中学习
自动标注流程	Tesla的4D标注（空间加时间）使用神经网络自动标注视频帧；降低人工标注成本	自动标注规模使处理数百万小时视频成为可能；人工审核聚焦于边缘案例
仿真 vs 影子模式	Tesla两者并用；影子模式提供真实边缘案例；仿真以变化重新大规模执行	互补关系：真实世界识别场景；仿真彻底测试场景
解除接管数据	每次强制解除FSD接管（驾驶员介入）都是训练信号；解除接管率约每年减半（估算值）	解除接管率是影子模式、Dojo和仿真共同优化的输出指标

影子模式飞轮效应

Tesla的影子模式创造了一个自我强化的改进循环，任何竞争对手若没有可比的安装车队规模都难以复制。其机制如下：每辆具备FSD功能的Tesla在道路上持续运行两个并行决策系统——驾驶员做出实际决策，FSD同步计算其预期决策。每当两者出现差异，该差异就会被记录并最终接受审核。在数百万辆车和数万亿英里的积累下，这产生了关于FSD行为与有经验的人类驾驶员不同情况的卓越信号。

Tesla约600万辆（估算值）具备FSD功能的车辆每天产生的真实世界影子数据，比全球任何其他自动驾驶项目在整个发展历史中积累的数据量还要多出几个数量级。

第三节——Waymo CarCraft：架构与规模

元素	细节	备注
CarCraft是什么？	Waymo的内部仿真环境；大规模仿真整个城市环境，包含车辆代理、行人、骑行者和边缘案例场景	Waymo已公开披露CarCraft；被描述为全球最先进的自动驾驶仿真环境之一
规模	Waymo已披露每天运行约150亿模拟英里（Waymo披露）	150亿模拟英里/天 vs 约5万真实英里/天（估算值）= 约30万倍仿真乘数
保真度方法	车辆高保真度物理仿真；其他代理（行人、骑行者、其他车辆）的行为建模	代理行为建模是Waymo的关键差异化；其他代理行为真实而非随机
场景来源	真实车队事件输入仿真重播；参数变化生成彻底的测试套件	每个真实世界的不适事件、险情或异常场景都成为仿真测试套件
对抗性场景生成	Waymo生成其他代理以最具挑战性方式行动的对抗性场景；测试系统鲁棒性	对抗性测试：行人在最糟时机横穿；车辆在最短警告距离下强行切入
感知仿真	仿真传感器数据（摄像头、激光雷达、毫米波）包含天气效应、光线变化、传感器降级	传感器仿真保真度是最难的仿真挑战；仿真激光雷达与真实激光雷达仍有差距
闭环测试	Waymo的仿真是闭环的——自动驾驶车辆的决策影响仿真环境；其他代理对车辆做出响应	闭环防止仿真给自动驾驶车辆比现实更容易的场景而”作弊”
软件在环（SIL）	在仿真内部运行实际生产版自动驾驶软件堆栈；而非简化代理	SIL确保仿真结果转化为真实世界软件行为

第四节——仿真与现实的差距

差距类型	Tesla挑战	Waymo挑战	缓解措施
传感器保真度差距	摄像头仿真必须匹配真实摄像头（镜头畸变、曝光、HDR行为）；持续改善中但差距仍存在	激光雷达仿真比摄像头更难；仿真点云与真实传感器噪声模式存在差异	两者：神经渲染（NeRF风格）从真实数据生成逼真传感器仿真
长尾行为差距	影子模式提供真实世界罕见事件；仿真重新执行但无法生成真正的新场景	Waymo真实车队较小；必须更依赖仿真处理边缘案例	两者使用程序化生成；真实世界数据对新场景仍不可替代
训练分布差距	在仿真上训练的模型可能在真实传感器数据上表现不同（域偏移）	相同挑战；需要域适应技术	两者：主要在真实世界数据上训练；仿真用于边缘案例增强
对抗性鲁棒性	FSD主要在真实世界上训练；对抗性场景覆盖取决于仿真质量	CarCraft对抗性测试是核心差异化因素；明确测试最坏情况代理行为	Waymo明确的对抗性项目是有文献记载的优势
计算成本	每天150亿模拟英里需要大量计算；Dojo为此工作负载设计	相同；CarCraft吞吐量需要Google TPU规模	两者都有计算规模解决方案；Waymo受益于Google基础设施
验证完整性	多少模拟英里等于”足够安全”？行业无统一标准	相同挑战；仿真永远无法穷尽所有情况	两者都使用仿真加真实世界加正式安全论证

第五节——仿真基准测试评分卡

维度	Tesla	Waymo	优势
仿真规模	非常高——约600万辆影子模式车辆（估算值）乘以每日英里数；Dojo处理输出	非常高——每天150亿模拟英里（Waymo披露）	不同方法；Waymo仿真量更高；Tesla真实世界影子量更高
影子模式/真实世界信号	决定性——600万辆车队（估算值）乘以持续影子模式等于无可匹敌的真实世界训练信号	真实车队较小；依靠仿真弥补	Tesla
对抗性测试项目	公开文献较少	决定性——CarCraft对抗性场景是核心方法论（Waymo披露）	Waymo
闭环保真度	同时使用SIL和真实世界验证	闭环SIL CarCraft是行业标杆	Waymo
传感器仿真保真度	摄像头仿真持续改善；神经渲染研究活跃	激光雷达仿真比摄像头更难；Waymo大量投资	大致相当；不同传感器
CI/CD集成	Tesla通过OTA部署FSD；通过仿真进行回归测试	Waymo使用仿真作为部署把关	两者均成熟

总体结论

Tesla的影子模式在约600万辆车辆（估算值）规模下，是自动驾驶行业中最强大的真实世界训练信号。没有其他自动驾驶项目能够获取与这一规模车队相当的真实驾驶数据量，每天在Tesla车辆运营的每个地区产生数百万次影子模式比对。

Waymo的CarCraft以每天150亿模拟英里（Waymo披露）的规模，是商业自动驾驶开发中最先进的仿真环境。比Waymo真实车队高出30万倍的仿真乘数允许在场景覆盖、回归测试和对抗性测试上实现真实英里数单独无法提供的规模与严谨性。

两种方法是互补的，而非竞争关系。Tesla在真实世界数据量和影子模式信号丰富性上明显胜出。Waymo在仿真严谨性、对抗性测试覆盖和闭环保真度上明显胜出。两者对完整的自动驾驶安全论证都不可或缺——这也是为何两家公司都同时采用两种方法。

注意： 所有标注”（估算值）“的数据均来自2026年中期的公开披露、行业研究、分析师估算及已报道资料。Waymo每天150亿模拟英里的数据来自Waymo的公开安全披露。本文不构成投资建议。