Skip to content
AI-Daily-Builder

2026-06-18 views

自动驾驶数据飞轮 — Tesla 600万辆 vs Waymo 无人驾驶质量优势

Tesla收集数量,Waymo追求质量。哪个数据飞轮能在2028年前打造出更强的自动驾驶系统?AV投资人必读的结构性护城河比较。

实体AI基准系列第65篇 — 训练数据护城河

自动驾驶领域最重要的长期结构性优势,不是传感器堆栈、软件团队或监管关系,而是数据飞轮:这个自我强化的循环将已部署的车辆转化为更好的训练数据,进而打造更强的模型,再吸引更多车辆部署。建立最佳飞轮的公司,不靠单一工程突破,而是靠着逐年累积的边际数据优势,最终打造出最好的自动驾驶系统。

Tesla与Waymo建立了根本上截然不同的飞轮架构。Tesla追求数量:超过600万辆FSD车辆,以任何竞争对手都无法复制的规模收集有监督的驾驶数据。Waymo追求质量:完全无人驾驶的商业运营,每一趟行程都是由AV系统独立处理的高风险真实世界场景,没有人类可供模仿。这场架构竞争的结果,将决定哪家公司的AI技术栈在2028年及以后真正领先。


第一节 — 为何训练数据是AI护城河

在端到端神经网络驾驶架构中(Tesla FSD v12+ 与 Waymo 现行神经网络技术栈均采用此架构),模型不遵循手工编写的规则,而是通过观察数百万个驾驶场景来学习正确行为应该是什么。观察经验的质量与数量,几乎决定了模型的所有表现。

飞轮运作方式如下:

部署更多车辆 → 行驶更多里程 → 捕捉更多边缘案例 → 更好的训练数据 → 更强的模型 → 销售或部署更多车辆 → 循环重复

关键洞察是:数据数量与数据质量并不相同。 10亿英里中人类驾驶从未遭遇异常状况的有监督FSD数据,每英里的价值,远低于100万英里完全无人驾驶中AV系统必须独立应对全新情境的数据。每英里的信息含量存在根本性差异。

自动驾驶最困难的部分,不是熟悉路段上可预测行为的普通99%里程,而是那1%的长尾边缘案例:不寻常的道路配置、意外的行人行为、路面障碍物、褪色的车道标线、施工区域,以及四向停车时每位驾驶行为略有不同的复杂多方博弈。这些正是导致失败的场景——而捕捉它们的训练数据,价值远超任何普通公路行驶的数据。

这形成了核心张力:Tesla拥有更多容易的里程;Waymo拥有更多在无人协助下处理的困难里程。哪个维度——数量还是质量——对于打造安全的商业自动驾驶更重要?


第二节 — Tesla的数据飞轮:规模化的数量优势

Tesla的数据飞轮是汽车AI史上最雄心勃勃的数据收集行动,其规模在业界无可比拟。

维度详情
车队规模2026年中期已有超过600万辆FSD车辆
每日里程估计整个车队每日FSD启动行驶数千万英里(估计值)
数据类型有监督:人类驾驶始终在场;系统观察人类行为;捕捉人类接管干预
边缘案例捕捉遍及美国40+州、加拿大、有限欧盟市场:极大的地理与场景多样性;罕见事件在车队规模下频繁发生
训练信号人类接管 = 标记的训练数据;“人类接管”= 系统做了错误的事;车队每年产生数十亿个标记修正事件(估计值)
数据管道影子模式:即使未启用FSD的驾驶,FSD也在后台运行;捕捉人类行为与FSD预测行为之间的差异;生成庞大的未标记比较数据集
DojoTesla自研AI训练集群;D1芯片针对视频型驾驶训练所需的特定张量运算优化
核心优势没有竞争对手能在没有消费者汽车业务的情况下复制600万辆的规模;数据护城河随每辆新车销售而增强
核心限制有监督数据存在选择偏差:人类大多在正常场景下驾驶;人类也犯错的真正新颖情境被严重低估;人在回路中造成质量上限

影子模式管道是Tesla最被低估的竞争优势。即使是从未启用FSD的Tesla车主,也在为训练数据集做出贡献:车辆观察人类驾驶的行为,并与FSD系统预测的行为进行比较。这在零增量采集成本下,创造了有史以来最大的持续更新驾驶行为比较数据集。


第三节 — Waymo的数据飞轮:质量优于数量

Waymo的数据飞轮规模小了几个数量级,但专为捕捉Tesla无法规模化收集的特定训练信号而设计:系统在没有人类可模仿时的实际表现。

维度详情
车队规模2026年中期约1,500辆专用车辆
每日里程约15万次/周 × 平均约4英里/次 = 约60万商业英里/周 = 约8.6万英里/天(估计值)
数据类型完全无人驾驶:无人在回路中;捕捉AV系统在无人类备援下实际处理新颖情境的方式
边缘案例捕捉地理多样性有限(4个城市);但每次商业行程都是真实世界的无人驾驶场景,有真实乘客——后果比有监督场景更严重
训练信号不适感事件、乘客行为、场景难度、远程协助请求——比单纯”人类接管”更丰富的行为信号
模拟Waymo模拟城市可大规模生成合成场景;能在真实世界部署前运行数十亿模拟英里
多传感器数据激光雷达 + 摄像头 + 毫米波雷达 = 比仅摄像头更丰富的每英里空间数据;3D点云提供训练的地面实况几何
核心优势无人驾驶里程为问题最困难部分提供最高质量信号:系统在没有人类可模仿时会怎么做?
核心限制每日约8.6万商业英里 vs Tesla估计的数千万英里——数量差距达100至1,000倍(估计值);地理多样性仅限4个城市

Waymo的无人驾驶信号在质上与Tesla目前能大规模收集的任何数据都不同。当Waymo车辆遭遇前所未见的场景时,它必须自行处理,或请求远程协助。两种结果都是高信号训练事件。Waymo的模拟能力部分弥补了数量差距——可以生成在真实世界驾驶中几乎从未出现的合成罕见事件。


第四节 — 质量 vs 数量的辩论

Tesla与Waymo架构理念之间的核心分歧,对应到机器学习中一个真正未解决的问题:更多低质量数据是否优于更少高质量数据?

论点支持Tesla数量的理由支持Waymo质量的理由
罕见事件600万辆车下,百万分之一的罕见事件每天都会发生;1,500辆车下可能永远不会出现在训练数据中模拟可大规模生成合成罕见事件;无人驾驶的真实世界罕见事件提供最高质量信号
边缘案例标记人类接管提供自然标记(接管 = 系统出错)无人驾驶场景 = 系统必须处理;结果可观察(行程完成?请求协助?)
泛化能力更多地理多样性 → 更好地泛化到不同路况、标志和天气城市有限,但模拟补足;多传感器数据提供更丰富的每样本信息
长尾罕见驾驶场景的长尾是主要安全挑战;Tesla的规模自然捕捉更多长尾Waymo认为最重要的长尾场景,正是人类也会失败的情境——只有无人驾驶数据能揭示
迁移学习消费者数据能很好地迁移到有监督驾驶改进;对完全自主驾驶是否适用尚不明确无人驾驶数据直接符合目标行为分布;无从有监督到自主的分布偏移
结论(估计)数量在有监督驾驶改进和ADAS方面胜出;质量在无人驾驶安全认证方面胜出两者皆需要;理想训练集结合Tesla规模的数量与Waymo质量的无人驾驶信号

迁移学习问题值得特别关注。Tesla的有监督训练数据在与目标行为不同的分布下收集:系统在有人类备援的情况下进行训练,但目标是在没有人类的情况下安全驾驶。这种从有监督收集到自主部署的分布差距,是单靠增加数量无法解决的根本挑战。


第五节 — 飞轮如何塑造竞争格局

数据飞轮竞争在几个场景中展开,每个场景对2028年的竞争结果有不同影响。

场景结果
Tesla无人驾驶率先规模化Tesla飞轮从有监督转为无人驾驶数据收集;质量赶上数量;复合优势加速;对所有竞争对手的差距扩大
Waymo车队达到10万辆质量规模化成为可能;真实世界无人驾驶数据结合模拟,创造同时提供覆盖范围和信号质量的训练数据集
中国AV玩家由于数据本地化法规形成独立护城河;比亚迪和蔚来的国内规模可在中国境内复制Tesla的数量飞轮
新进入者颠覆任何新进入者都面临冷启动问题:没有训练数据 → 没有能力的系统 → 没有部署 → 没有训练数据;需要大规模模拟投资或收购现有玩家
数据共享没有主要AV公司共享训练数据;每家都在建立专有护城河;赢家是最先将数据优势转化为商业规模的公司

冷启动问题是AV竞争中投资人最重要的结构性事实。数据飞轮创造了随时间增强(而非减弱)的复合进入壁垒。新进入者今天试图打造有竞争力的AV系统,面临无法快速弥合的训练数据赤字:累积真实世界驾驶里程需要数年,仅靠模拟数据不足以通过无人驾驶商业认证。


第六节 — 投资人信号:2028年哪个飞轮更值钱?

Tesla数量飞轮的多头论点依赖三个假设:有监督到无人驾驶的迁移学习效果足够好;Tesla Robotaxi在2026-2027年达到商业规模,将飞轮从有监督转为无人驾驶收集;以及摄像头纯视觉感知通过规模最终追平或超越激光雷达感知。

Waymo质量飞轮的多头论点依赖三个不同假设:无人驾驶数据对最后的安全认证至关重要;Waymo车队通过Google合作和Uber货运部署增长至5万至10万辆;以及激光雷达多传感器数据提供持久的每英里信息优势。

综合观点:两个飞轮都是必要的,单独任何一个都不够。理想的商业无人驾驶系统训练数据集,结合了Tesla规模的数量(场景广度、地理多样性、车队规模下的罕见事件密度)与Waymo质量的无人驾驶信号(符合策略的数据、高后果场景、无分布偏移)。

对投资人而言,关键观察信号是:Tesla Robotaxi无人驾驶部署进度(转换飞轮)、Waymo车队扩张公告(质量收集规模化)、AV公司间的任何数据共享合作(将重新分配护城河),以及监管安全认证门槛(可能最终决定数量或质量飞轮提供必要的认证证据)。

数据飞轮意味着AV领先者与跟随者之间的差距,随时间扩大而非缩小。将数据优势转化为商业规模的竞赛,是未来三年实体AI中最具决定性的竞争事件。


第七节 — 关于本系列

这是实体AI基准系列的第65篇。本文新增数据飞轮维度:Tesla数量飞轮(600万辆、有监督数据规模化、影子模式管道、Dojo)与Waymo质量飞轮(完全无人驾驶商业行程、多传感器地面实况、模拟城市)之间的架构比较,以机器学习术语阐述的数量 vs 质量辩论,以及揭示哪个飞轮正在胜出的投资人信号。

注意: 本文中所有车队规模、每日里程和商业行程估计,均基于公开的公司披露、新闻稿和业界分析。无精确数据时,估计值标记为”(估计值)“,仅供方向性参考。本文不构成投资建议。


来源

标签

请喝咖啡