2026-06-18 — views

自动驾驶数据飞轮 — Tesla 600万辆 vs Waymo 无人驾驶质量优势

Tesla收集数量，Waymo追求质量。哪个数据飞轮能在2028年前打造出更强的自动驾驶系统？AV投资人必读的结构性护城河比较。

实体AI基准系列第65篇 — 训练数据护城河

自动驾驶领域最重要的长期结构性优势，不是传感器堆栈、软件团队或监管关系，而是数据飞轮：这个自我强化的循环将已部署的车辆转化为更好的训练数据，进而打造更强的模型，再吸引更多车辆部署。建立最佳飞轮的公司，不靠单一工程突破，而是靠着逐年累积的边际数据优势，最终打造出最好的自动驾驶系统。

Tesla与Waymo建立了根本上截然不同的飞轮架构。Tesla追求数量：超过600万辆FSD车辆，以任何竞争对手都无法复制的规模收集有监督的驾驶数据。Waymo追求质量：完全无人驾驶的商业运营，每一趟行程都是由AV系统独立处理的高风险真实世界场景，没有人类可供模仿。这场架构竞争的结果，将决定哪家公司的AI技术栈在2028年及以后真正领先。

第一节 — 为何训练数据是AI护城河

在端到端神经网络驾驶架构中（Tesla FSD v12+ 与 Waymo 现行神经网络技术栈均采用此架构），模型不遵循手工编写的规则，而是通过观察数百万个驾驶场景来学习正确行为应该是什么。观察经验的质量与数量，几乎决定了模型的所有表现。

飞轮运作方式如下：

部署更多车辆 → 行驶更多里程 → 捕捉更多边缘案例 → 更好的训练数据 → 更强的模型 → 销售或部署更多车辆 → 循环重复

关键洞察是：数据数量与数据质量并不相同。 10亿英里中人类驾驶从未遭遇异常状况的有监督FSD数据，每英里的价值，远低于100万英里完全无人驾驶中AV系统必须独立应对全新情境的数据。每英里的信息含量存在根本性差异。

自动驾驶最困难的部分，不是熟悉路段上可预测行为的普通99%里程，而是那1%的长尾边缘案例：不寻常的道路配置、意外的行人行为、路面障碍物、褪色的车道标线、施工区域，以及四向停车时每位驾驶行为略有不同的复杂多方博弈。这些正是导致失败的场景——而捕捉它们的训练数据，价值远超任何普通公路行驶的数据。

这形成了核心张力：Tesla拥有更多容易的里程；Waymo拥有更多在无人协助下处理的困难里程。哪个维度——数量还是质量——对于打造安全的商业自动驾驶更重要？

第二节 — Tesla的数据飞轮：规模化的数量优势

Tesla的数据飞轮是汽车AI史上最雄心勃勃的数据收集行动，其规模在业界无可比拟。

维度	详情
车队规模	2026年中期已有超过600万辆FSD车辆
每日里程	估计整个车队每日FSD启动行驶数千万英里（估计值）
数据类型	有监督：人类驾驶始终在场；系统观察人类行为；捕捉人类接管干预
边缘案例捕捉	遍及美国40+州、加拿大、有限欧盟市场：极大的地理与场景多样性；罕见事件在车队规模下频繁发生
训练信号	人类接管 = 标记的训练数据；“人类接管”= 系统做了错误的事；车队每年产生数十亿个标记修正事件（估计值）
数据管道	影子模式：即使未启用FSD的驾驶，FSD也在后台运行；捕捉人类行为与FSD预测行为之间的差异；生成庞大的未标记比较数据集
Dojo	Tesla自研AI训练集群；D1芯片针对视频型驾驶训练所需的特定张量运算优化
核心优势	没有竞争对手能在没有消费者汽车业务的情况下复制600万辆的规模；数据护城河随每辆新车销售而增强
核心限制	有监督数据存在选择偏差：人类大多在正常场景下驾驶；人类也犯错的真正新颖情境被严重低估；人在回路中造成质量上限

影子模式管道是Tesla最被低估的竞争优势。即使是从未启用FSD的Tesla车主，也在为训练数据集做出贡献：车辆观察人类驾驶的行为，并与FSD系统预测的行为进行比较。这在零增量采集成本下，创造了有史以来最大的持续更新驾驶行为比较数据集。

第三节 — Waymo的数据飞轮：质量优于数量

Waymo的数据飞轮规模小了几个数量级，但专为捕捉Tesla无法规模化收集的特定训练信号而设计：系统在没有人类可模仿时的实际表现。

维度	详情
车队规模	2026年中期约1,500辆专用车辆
每日里程	约15万次/周 × 平均约4英里/次 = 约60万商业英里/周 = 约8.6万英里/天（估计值）
数据类型	完全无人驾驶：无人在回路中；捕捉AV系统在无人类备援下实际处理新颖情境的方式
边缘案例捕捉	地理多样性有限（4个城市）；但每次商业行程都是真实世界的无人驾驶场景，有真实乘客——后果比有监督场景更严重
训练信号	不适感事件、乘客行为、场景难度、远程协助请求——比单纯”人类接管”更丰富的行为信号
模拟	Waymo模拟城市可大规模生成合成场景；能在真实世界部署前运行数十亿模拟英里
多传感器数据	激光雷达 + 摄像头 + 毫米波雷达 = 比仅摄像头更丰富的每英里空间数据；3D点云提供训练的地面实况几何
核心优势	无人驾驶里程为问题最困难部分提供最高质量信号：系统在没有人类可模仿时会怎么做？
核心限制	每日约8.6万商业英里 vs Tesla估计的数千万英里——数量差距达100至1,000倍（估计值）；地理多样性仅限4个城市

Waymo的无人驾驶信号在质上与Tesla目前能大规模收集的任何数据都不同。当Waymo车辆遭遇前所未见的场景时，它必须自行处理，或请求远程协助。两种结果都是高信号训练事件。Waymo的模拟能力部分弥补了数量差距——可以生成在真实世界驾驶中几乎从未出现的合成罕见事件。

第四节 — 质量 vs 数量的辩论

Tesla与Waymo架构理念之间的核心分歧，对应到机器学习中一个真正未解决的问题：更多低质量数据是否优于更少高质量数据？

论点	支持Tesla数量的理由	支持Waymo质量的理由
罕见事件	600万辆车下，百万分之一的罕见事件每天都会发生；1,500辆车下可能永远不会出现在训练数据中	模拟可大规模生成合成罕见事件；无人驾驶的真实世界罕见事件提供最高质量信号
边缘案例标记	人类接管提供自然标记（接管 = 系统出错）	无人驾驶场景 = 系统必须处理；结果可观察（行程完成？请求协助？）
泛化能力	更多地理多样性 → 更好地泛化到不同路况、标志和天气	城市有限，但模拟补足；多传感器数据提供更丰富的每样本信息
长尾	罕见驾驶场景的长尾是主要安全挑战；Tesla的规模自然捕捉更多长尾	Waymo认为最重要的长尾场景，正是人类也会失败的情境——只有无人驾驶数据能揭示
迁移学习	消费者数据能很好地迁移到有监督驾驶改进；对完全自主驾驶是否适用尚不明确	无人驾驶数据直接符合目标行为分布；无从有监督到自主的分布偏移
结论（估计）	数量在有监督驾驶改进和ADAS方面胜出；质量在无人驾驶安全认证方面胜出	两者皆需要；理想训练集结合Tesla规模的数量与Waymo质量的无人驾驶信号

迁移学习问题值得特别关注。Tesla的有监督训练数据在与目标行为不同的分布下收集：系统在有人类备援的情况下进行训练，但目标是在没有人类的情况下安全驾驶。这种从有监督收集到自主部署的分布差距，是单靠增加数量无法解决的根本挑战。

第五节 — 飞轮如何塑造竞争格局

数据飞轮竞争在几个场景中展开，每个场景对2028年的竞争结果有不同影响。

场景	结果
Tesla无人驾驶率先规模化	Tesla飞轮从有监督转为无人驾驶数据收集；质量赶上数量；复合优势加速；对所有竞争对手的差距扩大
Waymo车队达到10万辆	质量规模化成为可能；真实世界无人驾驶数据结合模拟，创造同时提供覆盖范围和信号质量的训练数据集
中国AV玩家	由于数据本地化法规形成独立护城河；比亚迪和蔚来的国内规模可在中国境内复制Tesla的数量飞轮
新进入者颠覆	任何新进入者都面临冷启动问题：没有训练数据 → 没有能力的系统 → 没有部署 → 没有训练数据；需要大规模模拟投资或收购现有玩家
数据共享	没有主要AV公司共享训练数据；每家都在建立专有护城河；赢家是最先将数据优势转化为商业规模的公司

冷启动问题是AV竞争中投资人最重要的结构性事实。数据飞轮创造了随时间增强（而非减弱）的复合进入壁垒。新进入者今天试图打造有竞争力的AV系统，面临无法快速弥合的训练数据赤字：累积真实世界驾驶里程需要数年，仅靠模拟数据不足以通过无人驾驶商业认证。

第六节 — 投资人信号：2028年哪个飞轮更值钱？

Tesla数量飞轮的多头论点依赖三个假设：有监督到无人驾驶的迁移学习效果足够好；Tesla Robotaxi在2026-2027年达到商业规模，将飞轮从有监督转为无人驾驶收集；以及摄像头纯视觉感知通过规模最终追平或超越激光雷达感知。

Waymo质量飞轮的多头论点依赖三个不同假设：无人驾驶数据对最后的安全认证至关重要；Waymo车队通过Google合作和Uber货运部署增长至5万至10万辆；以及激光雷达多传感器数据提供持久的每英里信息优势。

综合观点：两个飞轮都是必要的，单独任何一个都不够。理想的商业无人驾驶系统训练数据集，结合了Tesla规模的数量（场景广度、地理多样性、车队规模下的罕见事件密度）与Waymo质量的无人驾驶信号（符合策略的数据、高后果场景、无分布偏移）。

对投资人而言，关键观察信号是：Tesla Robotaxi无人驾驶部署进度（转换飞轮）、Waymo车队扩张公告（质量收集规模化）、AV公司间的任何数据共享合作（将重新分配护城河），以及监管安全认证门槛（可能最终决定数量或质量飞轮提供必要的认证证据）。

数据飞轮意味着AV领先者与跟随者之间的差距，随时间扩大而非缩小。将数据优势转化为商业规模的竞赛，是未来三年实体AI中最具决定性的竞争事件。

第七节 — 关于本系列

这是实体AI基准系列的第65篇。本文新增数据飞轮维度：Tesla数量飞轮（600万辆、有监督数据规模化、影子模式管道、Dojo）与Waymo质量飞轮（完全无人驾驶商业行程、多传感器地面实况、模拟城市）之间的架构比较，以机器学习术语阐述的数量 vs 质量辩论，以及揭示哪个飞轮正在胜出的投资人信号。

注意： 本文中所有车队规模、每日里程和商业行程估计，均基于公开的公司披露、新闻稿和业界分析。无精确数据时，估计值标记为”（估计值）“，仅供方向性参考。本文不构成投资建议。