2026-06-18 — views
自动驾驶数据飞轮 — Tesla 600万辆 vs Waymo 无人驾驶质量优势
Tesla收集数量,Waymo追求质量。哪个数据飞轮能在2028年前打造出更强的自动驾驶系统?AV投资人必读的结构性护城河比较。
实体AI基准系列第65篇 — 训练数据护城河
自动驾驶领域最重要的长期结构性优势,不是传感器堆栈、软件团队或监管关系,而是数据飞轮:这个自我强化的循环将已部署的车辆转化为更好的训练数据,进而打造更强的模型,再吸引更多车辆部署。建立最佳飞轮的公司,不靠单一工程突破,而是靠着逐年累积的边际数据优势,最终打造出最好的自动驾驶系统。
Tesla与Waymo建立了根本上截然不同的飞轮架构。Tesla追求数量:超过600万辆FSD车辆,以任何竞争对手都无法复制的规模收集有监督的驾驶数据。Waymo追求质量:完全无人驾驶的商业运营,每一趟行程都是由AV系统独立处理的高风险真实世界场景,没有人类可供模仿。这场架构竞争的结果,将决定哪家公司的AI技术栈在2028年及以后真正领先。
第一节 — 为何训练数据是AI护城河
在端到端神经网络驾驶架构中(Tesla FSD v12+ 与 Waymo 现行神经网络技术栈均采用此架构),模型不遵循手工编写的规则,而是通过观察数百万个驾驶场景来学习正确行为应该是什么。观察经验的质量与数量,几乎决定了模型的所有表现。
飞轮运作方式如下:
部署更多车辆 → 行驶更多里程 → 捕捉更多边缘案例 → 更好的训练数据 → 更强的模型 → 销售或部署更多车辆 → 循环重复
关键洞察是:数据数量与数据质量并不相同。 10亿英里中人类驾驶从未遭遇异常状况的有监督FSD数据,每英里的价值,远低于100万英里完全无人驾驶中AV系统必须独立应对全新情境的数据。每英里的信息含量存在根本性差异。
自动驾驶最困难的部分,不是熟悉路段上可预测行为的普通99%里程,而是那1%的长尾边缘案例:不寻常的道路配置、意外的行人行为、路面障碍物、褪色的车道标线、施工区域,以及四向停车时每位驾驶行为略有不同的复杂多方博弈。这些正是导致失败的场景——而捕捉它们的训练数据,价值远超任何普通公路行驶的数据。
这形成了核心张力:Tesla拥有更多容易的里程;Waymo拥有更多在无人协助下处理的困难里程。哪个维度——数量还是质量——对于打造安全的商业自动驾驶更重要?
第二节 — Tesla的数据飞轮:规模化的数量优势
Tesla的数据飞轮是汽车AI史上最雄心勃勃的数据收集行动,其规模在业界无可比拟。
| 维度 | 详情 |
|---|---|
| 车队规模 | 2026年中期已有超过600万辆FSD车辆 |
| 每日里程 | 估计整个车队每日FSD启动行驶数千万英里(估计值) |
| 数据类型 | 有监督:人类驾驶始终在场;系统观察人类行为;捕捉人类接管干预 |
| 边缘案例捕捉 | 遍及美国40+州、加拿大、有限欧盟市场:极大的地理与场景多样性;罕见事件在车队规模下频繁发生 |
| 训练信号 | 人类接管 = 标记的训练数据;“人类接管”= 系统做了错误的事;车队每年产生数十亿个标记修正事件(估计值) |
| 数据管道 | 影子模式:即使未启用FSD的驾驶,FSD也在后台运行;捕捉人类行为与FSD预测行为之间的差异;生成庞大的未标记比较数据集 |
| Dojo | Tesla自研AI训练集群;D1芯片针对视频型驾驶训练所需的特定张量运算优化 |
| 核心优势 | 没有竞争对手能在没有消费者汽车业务的情况下复制600万辆的规模;数据护城河随每辆新车销售而增强 |
| 核心限制 | 有监督数据存在选择偏差:人类大多在正常场景下驾驶;人类也犯错的真正新颖情境被严重低估;人在回路中造成质量上限 |
影子模式管道是Tesla最被低估的竞争优势。即使是从未启用FSD的Tesla车主,也在为训练数据集做出贡献:车辆观察人类驾驶的行为,并与FSD系统预测的行为进行比较。这在零增量采集成本下,创造了有史以来最大的持续更新驾驶行为比较数据集。
第三节 — Waymo的数据飞轮:质量优于数量
Waymo的数据飞轮规模小了几个数量级,但专为捕捉Tesla无法规模化收集的特定训练信号而设计:系统在没有人类可模仿时的实际表现。
| 维度 | 详情 |
|---|---|
| 车队规模 | 2026年中期约1,500辆专用车辆 |
| 每日里程 | 约15万次/周 × 平均约4英里/次 = 约60万商业英里/周 = 约8.6万英里/天(估计值) |
| 数据类型 | 完全无人驾驶:无人在回路中;捕捉AV系统在无人类备援下实际处理新颖情境的方式 |
| 边缘案例捕捉 | 地理多样性有限(4个城市);但每次商业行程都是真实世界的无人驾驶场景,有真实乘客——后果比有监督场景更严重 |
| 训练信号 | 不适感事件、乘客行为、场景难度、远程协助请求——比单纯”人类接管”更丰富的行为信号 |
| 模拟 | Waymo模拟城市可大规模生成合成场景;能在真实世界部署前运行数十亿模拟英里 |
| 多传感器数据 | 激光雷达 + 摄像头 + 毫米波雷达 = 比仅摄像头更丰富的每英里空间数据;3D点云提供训练的地面实况几何 |
| 核心优势 | 无人驾驶里程为问题最困难部分提供最高质量信号:系统在没有人类可模仿时会怎么做? |
| 核心限制 | 每日约8.6万商业英里 vs Tesla估计的数千万英里——数量差距达100至1,000倍(估计值);地理多样性仅限4个城市 |
Waymo的无人驾驶信号在质上与Tesla目前能大规模收集的任何数据都不同。当Waymo车辆遭遇前所未见的场景时,它必须自行处理,或请求远程协助。两种结果都是高信号训练事件。Waymo的模拟能力部分弥补了数量差距——可以生成在真实世界驾驶中几乎从未出现的合成罕见事件。
第四节 — 质量 vs 数量的辩论
Tesla与Waymo架构理念之间的核心分歧,对应到机器学习中一个真正未解决的问题:更多低质量数据是否优于更少高质量数据?
| 论点 | 支持Tesla数量的理由 | 支持Waymo质量的理由 |
|---|---|---|
| 罕见事件 | 600万辆车下,百万分之一的罕见事件每天都会发生;1,500辆车下可能永远不会出现在训练数据中 | 模拟可大规模生成合成罕见事件;无人驾驶的真实世界罕见事件提供最高质量信号 |
| 边缘案例标记 | 人类接管提供自然标记(接管 = 系统出错) | 无人驾驶场景 = 系统必须处理;结果可观察(行程完成?请求协助?) |
| 泛化能力 | 更多地理多样性 → 更好地泛化到不同路况、标志和天气 | 城市有限,但模拟补足;多传感器数据提供更丰富的每样本信息 |
| 长尾 | 罕见驾驶场景的长尾是主要安全挑战;Tesla的规模自然捕捉更多长尾 | Waymo认为最重要的长尾场景,正是人类也会失败的情境——只有无人驾驶数据能揭示 |
| 迁移学习 | 消费者数据能很好地迁移到有监督驾驶改进;对完全自主驾驶是否适用尚不明确 | 无人驾驶数据直接符合目标行为分布;无从有监督到自主的分布偏移 |
| 结论(估计) | 数量在有监督驾驶改进和ADAS方面胜出;质量在无人驾驶安全认证方面胜出 | 两者皆需要;理想训练集结合Tesla规模的数量与Waymo质量的无人驾驶信号 |
迁移学习问题值得特别关注。Tesla的有监督训练数据在与目标行为不同的分布下收集:系统在有人类备援的情况下进行训练,但目标是在没有人类的情况下安全驾驶。这种从有监督收集到自主部署的分布差距,是单靠增加数量无法解决的根本挑战。
第五节 — 飞轮如何塑造竞争格局
数据飞轮竞争在几个场景中展开,每个场景对2028年的竞争结果有不同影响。
| 场景 | 结果 |
|---|---|
| Tesla无人驾驶率先规模化 | Tesla飞轮从有监督转为无人驾驶数据收集;质量赶上数量;复合优势加速;对所有竞争对手的差距扩大 |
| Waymo车队达到10万辆 | 质量规模化成为可能;真实世界无人驾驶数据结合模拟,创造同时提供覆盖范围和信号质量的训练数据集 |
| 中国AV玩家 | 由于数据本地化法规形成独立护城河;比亚迪和蔚来的国内规模可在中国境内复制Tesla的数量飞轮 |
| 新进入者颠覆 | 任何新进入者都面临冷启动问题:没有训练数据 → 没有能力的系统 → 没有部署 → 没有训练数据;需要大规模模拟投资或收购现有玩家 |
| 数据共享 | 没有主要AV公司共享训练数据;每家都在建立专有护城河;赢家是最先将数据优势转化为商业规模的公司 |
冷启动问题是AV竞争中投资人最重要的结构性事实。数据飞轮创造了随时间增强(而非减弱)的复合进入壁垒。新进入者今天试图打造有竞争力的AV系统,面临无法快速弥合的训练数据赤字:累积真实世界驾驶里程需要数年,仅靠模拟数据不足以通过无人驾驶商业认证。
第六节 — 投资人信号:2028年哪个飞轮更值钱?
Tesla数量飞轮的多头论点依赖三个假设:有监督到无人驾驶的迁移学习效果足够好;Tesla Robotaxi在2026-2027年达到商业规模,将飞轮从有监督转为无人驾驶收集;以及摄像头纯视觉感知通过规模最终追平或超越激光雷达感知。
Waymo质量飞轮的多头论点依赖三个不同假设:无人驾驶数据对最后的安全认证至关重要;Waymo车队通过Google合作和Uber货运部署增长至5万至10万辆;以及激光雷达多传感器数据提供持久的每英里信息优势。
综合观点:两个飞轮都是必要的,单独任何一个都不够。理想的商业无人驾驶系统训练数据集,结合了Tesla规模的数量(场景广度、地理多样性、车队规模下的罕见事件密度)与Waymo质量的无人驾驶信号(符合策略的数据、高后果场景、无分布偏移)。
对投资人而言,关键观察信号是:Tesla Robotaxi无人驾驶部署进度(转换飞轮)、Waymo车队扩张公告(质量收集规模化)、AV公司间的任何数据共享合作(将重新分配护城河),以及监管安全认证门槛(可能最终决定数量或质量飞轮提供必要的认证证据)。
数据飞轮意味着AV领先者与跟随者之间的差距,随时间扩大而非缩小。将数据优势转化为商业规模的竞赛,是未来三年实体AI中最具决定性的竞争事件。
第七节 — 关于本系列
这是实体AI基准系列的第65篇。本文新增数据飞轮维度:Tesla数量飞轮(600万辆、有监督数据规模化、影子模式管道、Dojo)与Waymo质量飞轮(完全无人驾驶商业行程、多传感器地面实况、模拟城市)之间的架构比较,以机器学习术语阐述的数量 vs 质量辩论,以及揭示哪个飞轮正在胜出的投资人信号。
注意: 本文中所有车队规模、每日里程和商业行程估计,均基于公开的公司披露、新闻稿和业界分析。无精确数据时,估计值标记为”(估计值)“,仅供方向性参考。本文不构成投资建议。
来源
- Tesla FSD 车队数据与影子模式 — Tesla AI Day 演讲 ↗
- Waymo Simulation City — Waymo 技术博客 ↗
- Tesla Dojo 超算 — Tesla 投资者演讲 ↗
- 自动驾驶数据质量 vs 数量 — MIT CSAIL 研究 ↗