2026-06-18 — views
Physical AI 数据飞轮 2026 — 特斯拉 60 亿英里监督式 FSD 数据 vs Waymo 3000 万英里全自动驾驶:训练数据基准测试
特斯拉累计超过 60 亿英里监督式 FSD 数据,Waymo 拥有 3000 万英里完全无人驾驶里程。规模对质量——这场数据飞轮之争定义了 Physical AI 的训练优势。
Physical AI 基准系列第 173 篇 — 训练数据与数据飞轮
Physical AI 训练竞赛中最根本的不对称性不是算力、估值或监管许可,而是数据。截至 2026 年中,特斯拉已从约 600 万辆消费者车辆中累积了估计超过 60 亿英里的监督式全自动驾驶(FSD)里程(估计值)。Waymo 则在凤凰城、旧金山、洛杉矶和奥斯丁的机器人出租车队中累积了约 2500 万至 3500 万英里的完全无人驾驶商业里程(估计值)。原始数字给了特斯拉约 200:1 的规模优势。但这些数据并不等同:Waymo 每一英里都是完全自主驾驶完成的,从未有人可以介入;特斯拉每一英里都有持照人类驾驶员在场,随时准备接管。本文基准测试哪种数据优势在战略上更持久、每种数据类型实际上训练的是什么,以及随着两个车队的增长,飞轮的样貌。
第一节 — 两个数据飞轮:规模 vs. 纯粹度
| 维度 | 特斯拉 FSD 数据飞轮 | Waymo 无人驾驶数据飞轮 |
|---|---|---|
| 总里程(估计值) | 截至 2026 年中累计超过 60 亿英里监督式 FSD 里程(估计值) | 截至 2026 年中累计约 2500 万至 3500 万英里无人驾驶商业里程(估计值) |
| 每周里程(估计值) | 估计每周数千万英里监督式里程(600 万辆车辆乘以平均 FSD 使用率) | 估计每周 15 万次以上付费乘车乘以平均 3–5 英里 = 估计每周 45 万至 75 万英里无人驾驶里程 |
| 数据生成比例 | 特斯拉每周生成的里程估计比 Waymo 多 100–200 倍(估计值) | Waymo 总里程少得多,但全部为完全自主驾驶 |
| 驾驶员在场? | 是 — 持照人类驾驶员必须全程监督 FSD;驾驶员可随时脱离接管 | 否 — 零人为介入;车辆完全自主做出每一个决策 |
| 数据标签质量 | 监督式里程包含 AI 成功决策和人类覆盖(脱离);脱离时刻是最有价值的训练信号 | 完全自主里程:AI 做出的每一个决策都是实际结果——没有人类校正信号,但 AI 必须足够强健以在无人帮助下处理每一个场景 |
| 数据训练的内容 | FSD:训练神经网络匹配人类驾驶行为,并在需要介入时恢复;脱离事件自动标记边缘案例以重新训练 | Waymo:训练系统完全自主地处理现实世界场景的完整分布——包括在无人帮助下从自身错误中恢复 |
| 数据引擎(特斯拉) | Tesla 的 Data Engine:FSD 行程录制视频;车载模型自动标记帧;低置信度帧被标记并发送到云端进行人工审查;自动标记可扩展;人工审查聚焦于困难案例 | Waymo 的等效系统:所有无人驾驶行程都被记录;任何需要远程操作注意的场景都被标记;模拟生成合成边缘案例 |
| 飞轮复利 | 更多特斯拉车辆 → 更多 FSD 里程 → 更多训练数据 → 更好的 FSD → 更高的使用率 → 更多收入 → 更多研发 → 更好的 FSD | 更多 Waymo 无人驾驶乘车 → 更多无人驾驶里程 → 发现更多边缘案例 → 更好的系统 → 更多许可 → 更多城市 → 更多乘车 |
规模比率令人瞩目。特斯拉每年增加估计 20–30 亿英里监督式里程;Waymo 每年增加估计 2500 至 4000 万英里无人驾驶里程。特斯拉的原始里程生成速率比 Waymo 高约两个数量级。但 200:1 的里程比率并不能转化为 200:1 的训练信号质量优势——因为两种里程类型训练的是不同的能力。
第二节 — 监督式与无人驾驶里程实际训练的差异
| 训练维度 | 特斯拉监督式里程训练的内容 | Waymo 无人驾驶里程训练的内容 | 战略含义 |
|---|---|---|---|
| 正常驾驶 | 匹配人类的驾驶行为:车道保持、速度、跟车距离、路口处理——全部根据人类驾驶方式校准 | Waymo 自己的正常驾驶策略:独立于人类行为规范开发;针对乘客舒适度、安全性和效率优化 | 两者都有高质量的正常驾驶数据;特斯拉的更像人类,Waymo 的可能更优化 |
| 边缘案例发现 | 人类脱离 = 自动标记的边缘案例;60 亿英里在规模上产生数百万个边缘案例例子;边缘案例每英里罕见但在车队规模上数量庞大 | 无人驾驶运行:Waymo 在无人类后盾的情况下在现实中遇到边缘案例;系统必须处理它们;每个被处理的边缘案例都是强健性的证明 | 特斯拉发现更多总边缘案例(规模);Waymo 的边缘案例个别更有价值(证明无人可处理) |
| 从错误中恢复 | 人类在错误成为事故之前捕获它;AI 从未学会在无人帮助下从深度失败状态中恢复 | Waymo 必须自主从自身错误中恢复;这训练了监督系统不会学到的恢复行为 | Waymo 的恢复训练是完全无人驾驶操作的结构性优势;监督系统在此有缺口 |
| 罕见天气和条件 | 特斯拉车队在全美 50 个州加上国际:雪、冰、雾、大雨、施工区——在规模上广泛的环境覆盖 | Waymo 车队在 4 个阳光带和温和气候城市(凤凰城、旧金山、洛杉矶、奥斯丁)——与特斯拉全球车队相比天气多样性有限 | 特斯拉有显著的天气多样性优势;Waymo 的凤凰城和旧金山数据质量高但地理上较窄 |
| 夜间和低光照 | 600 万辆车辆 24 小时运行包括夜间;大量夜间驾驶数据集 | 15 万次以上每周乘车包括旧金山 24 小时运行;但较小的车队意味着绝对夜间数据较少 | 特斯拉有更多绝对夜间里程;Waymo 来自旧金山 24 小时运行的夜间数据是高质量城市夜间数据 |
| 新场景 | 在 60 亿英里中,特斯拉遇到了数百万个不寻常的场景;Data Engine 找出模型出错的那些 | 在 3000 万英里无人驾驶中,Waymo 遇到必须在无人帮助下处理的新场景——对”已处理”的要求门槛更高 | 不同但互补;在新场景训练方面没有明确的赢家 |
| 长尾覆盖 | 特斯拉:60 亿英里以监督式数据质量为代价生成庞大的长尾覆盖 | Waymo:3000 万无人驾驶里程以更高的每英里质量生成深度长尾覆盖 | Waymo 的长尾覆盖已被证实(车辆已处理它);特斯拉的被观察到但有人类安全网 |
第三节 — 脱离数据:特斯拉最有价值的信号
| 脱离维度 | 细节 | 备注 |
|---|---|---|
| 脱离是什么 | 人类 FSD 用户接管车辆控制——自愿(不喜欢 FSD 的做法)或因为 FSD 发起交接 | 每次脱离都是自动标记的训练例子:“在这个时刻,在这个情境中,人类决定 FSD 没有正确处理情况” |
| 脱离率趋势(估计值) | FSD v12/v13 关键脱离率:估计每 1,000 英里 0.03–0.05 次(估计值);意味着估计每 20,000–33,000 英里 FSD 运行有 1 次脱离(估计值) | 每次比率提升,每英里的训练例子更少——但在 60 亿总里程中,绝对数量仍然庞大 |
| 特斯拉如何使用脱离数据 | 脱离帧被自动标记并反馈到训练管道;单一脱离事件产生数百帧”FSD 即将做 X,人类纠正”训练信号 | 这创建了监督驾驶独有的封闭反馈回路:人类行为是训练信号 |
| Waymo 等效物 | Waymo 没有脱离数据(没有人类可以脱离);相反,远程操作联系率作为”系统发现具有挑战性的情况”的代理 | 远程操作联系比特斯拉脱离更罕见,代表更高严重程度的情况 |
| 脱离数据对 FSD 的重要性 | 特斯拉正在训练 AI 像人类一样驾驶;人类纠正告诉 AI 何时以及如何偏离人类判断;这个反馈回路将 FSD 从每 500 英里 1 次脱离(v10 估计)推进到估计每 20,000 英里以上 1 次(v13 估计) | 改进轨迹表明反馈回路工作效果非常好;FSD 快速改进曲线部分由脱离训练信号的质量解释 |
| 监督到无人驾驶的差距 | 对监督里程的训练优化”人类不会介入”;过渡到无人驾驶需要”系统从不需要人类介入”——这些是微妙但重要的不同优化目标 | 特斯拉在监督数据上训练的 FSD 必须迁移到无人驾驶运行;这非同小可,是特斯拉自主过渡的核心挑战 |
第四节 — 车队规模 vs. 车队质量:哪个飞轮胜出?
| 场景 | 特斯拉优势 | Waymo 优势 | 在此场景中谁胜出 |
|---|---|---|---|
| 提升正常驾驶性能 | 庞大数据集;快速迭代周期;数十亿英里可学习 | 高质量自主数据;每英里都证明强健性 | 两者都强;特斯拉的规模优势对规模下罕见但真实的场景具有决定性 |
| 实现无人驾驶运行 | 必须跨越监督到无人驾驶的差距;大型车队但数据为监督优化 | 已在运行无人驾驶;数据直接反映无人驾驶性能要求 | Waymo:无人驾驶训练数据对无人驾驶部署更直接相关 |
| 扩展到新地域 | 600 万辆车辆已在新地域:雪、冰、国际道路 | 必须将车队实际部署到新城市;无法对不存在的数据进行预训练 | 特斯拉:新环境预训练的巨大地理覆盖优势 |
| 天气强健性 | 规模下的雪、冰、雾、雨数据(美国加上国际车队) | 阳光带重点;有限的恶劣天气数据 | 特斯拉:决定性的天气多样性优势 |
| 无人类的边缘案例恢复 | 监督数据:边缘案例被观察到但人类防止最坏结果 | 无人驾驶数据:边缘案例完全自主处理 | Waymo:无人类介入的恢复训练是独特的无人驾驶特性 |
| 训练效率 | FSD v12:端到端模型;数十亿英里训练一个神经网络 | Waymo:模块化系统加端到端组件;更小的数据集但更高的每英里信息密度 | 大致相当;不同架构从各自数据集中提取不同价值 |
| 整体飞轮结论 | 特斯拉在规模、速度和地理覆盖上胜出 | Waymo 在无人驾驶特定能力的数据质量上胜出 | 长期飞轮的胜者取决于监督到无人驾驶的差距是否可以被规模弥合(特斯拉的赌注),或者无人驾驶特定训练数据是否不可替代(Waymo 的结构性地位) |
第五节 — 数据飞轮上升指数:需要追踪的关键指标
| KPI | 特斯拉 2026 年 Q2 | Waymo 2026 年 Q2 | 2026 年下半年轨迹 |
|---|---|---|---|
| 累计里程(估计值) | 估计 60 亿以上监督式(估计值) | 估计 2500 至 3500 万无人驾驶(估计值) | 特斯拉:估计每年增加 20–30 亿英里;Waymo:估计每年增加 2500–4000 万英里 |
| 每周里程生成(估计值) | 估计每周数千万英里(估计值) | 估计每周 45 万至 75 万无人驾驶英里(估计值) | 特斯拉随 FSD 使用率增长;Waymo 随车队规模增长 |
| 脱离率(FSD 估计值) | 估计每 1,000 英里 0.03–0.05 次(估计值) | 不适用(无监督驾驶) | 关键指标:比率持续下降 → FSD 接近无人驾驶门槛 |
| 每周无人驾驶里程(估计值) | 估计 0 无人驾驶英里(奥斯丁仅为监督式) | 估计每周 45 万至 75 万无人驾驶英里(估计值) | 特斯拉:奥斯丁第一批无人驾驶里程待 FMVSS;Waymo:随 Gen 6 车队上升 |
| 模型改进率 | FSD v10 → v13:脱离率在估计 3 年内改进了估计 40 倍(估计值) | Waymo:脱离率 = 0(不适用);通过新城市发布和边缘案例处理追踪运行能力改进 | 两者都显示快速改进;不同指标 |
| 数据优势持久性 | 特斯拉的规模优势随每辆新 FSD 车辆销售而增长;只要 FSD 使用率保持就持久 | Waymo 的无人驾驶质量优势只要特斯拉无法在没有无人驾驶特定训练数据的情况下跨越监督到无人驾驶差距就持久 | 两者的关键问题:特斯拉的规模能否弥合质量差距,还是无人驾驶需要无人驾驶数据?FSD v13 的轨迹表明规模正在胜出——但实验尚未结束 |
第六节 — 关于本系列
本文是 Physical AI 基准系列第 173 篇。本文新增了数据飞轮维度:特斯拉监督式里程与 Waymo 无人驾驶里程之间 200:1 的规模比率、每种里程类型实际训练的内容,以及为什么监督到无人驾驶的差距是 Physical AI 数据竞赛中最重要的开放问题。
提示: 本文中所有里程数字、脱离率、车队规模和预测均为基于公开信息、公司披露和行业分析的估计值,全程标记为”(估计值)“。本文不构成投资建议。在做出任何投资决策之前,请进行自己的尽职调查并咨询持牌财务顾问。
来源
- Tesla FSD 累计里程 — Tesla AI Day 及财报电话 ↗
- Waymo 无人驾驶里程与乘车次数 — Waymo 博客 ↗
- Tesla FSD Data Engine — Tesla AI 基础设施 ↗
- Waymo 安全报告 — Waymo ↗
- FSD 脱离率 — Tesla AI Day 及公开披露 ↗