Skip to content
AI-Daily-Builder

2026-06-18 views

Physical AI 数据管线 — Tesla 600万辆车采集飞轮 vs Waymo 每日150亿模拟里程:训练基础设施竞赛

Tesla每日从600万辆车采集数百万英里FSD里程;Waymo每日运行150亿模拟里程。数量vs质量定义了Physical AI数据管线竞赛格局。

Physical AI 基准测试系列第155篇 — Physical AI 数据管线:Tesla 与 Waymo 如何大规模采集、标注、存储与处理训练数据

数据管线是决定自动驾驶公司改善AI模型速度的隐形基础设施。每行驶一英里、每记录一个传感器帧、每应用一个标签、每完成一次训练运行,都在积累对后来者难以缩小的复利优势。Tesla 的自动标注管线处理来自约600万辆具备FSD功能车辆的数据(估计值);Waymo 的人工标注团队则标注来自规模较小但完全无人驾驶车队的数十亿个传感器帧。本文是 Physical AI 基准测试系列第155篇,对完整的数据管线进行基准测试——包括采集、标注、存储、计算与反馈循环——并分析数据速度对 Physical AI 竞争优势的意义。

所有标有”(估计值)“的数字均来自公开披露、行业研究与分析师估计,而非独立验证的原始数据。


第1节 — 数据采集:原材料从哪里来

维度TeslaWaymo影响
车队规模(数据来源)全球约600万辆具备FSD功能的车辆(估计值);每日约100万辆以上启用FSD(估计值)在4座城市约2,500辆专用AV车辆(估计值)Tesla:车辆数量多出2,400倍;原始数据量具有压倒性优势
每日采集里程(估计值)每日FSD行驶里程达数千万英里(估计值,跨越整个车队)每日约5万至10万无人驾驶里程(估计值)Tesla:每日里程约多出500至1,000倍
传感器数据类型9个摄像头(多种分辨率);4D雷达;无激光雷达摄像头加激光雷达加毫米波雷达(三种模式全备)Waymo每辆车采集的传感器数据更丰富;Tesla采集的摄像头数据量更大
每英里数据密度约9个摄像头流,每个约36帧/秒 = 每辆车约324帧/秒摄像头加激光雷达点云加雷达 = 每英里字节数约为纯摄像头的10倍Waymo每英里数据更丰富;Tesla里程数更多
边缘案例密度(估计值)在600万辆车的规模下,Tesla每天多次遭遇每种罕见场景;影子模式标记偏差Waymo无人驾驶车队较少遭遇罕见场景,但标注保真度更高Tesla在边缘案例数量上获胜;Waymo在边缘案例标注质量上获胜
地理多样性美国、加拿大、欧盟、中国、澳大利亚——全球摄像头数据4座美国城市(旧金山、凤凰城、洛杉矶、奥斯汀)——范围窄但深入Tesla:全球场景多样性;Waymo:4个市场的深度城市场景
数据选择(上传内容)并非所有里程都会上传;Tesla车载电脑选择FSD行为偏离驾驶员或遭遇不确定性的片段所有无人驾驶数据都有价值;Waymo上传其较小数量中的更高比例Tesla的针对性上传降低带宽成本;但有遗漏未被标记为不确定场景的风险

Tesla 放弃激光雷达的决定不仅是成本决策,更是数据策略决策。摄像头数据比激光雷达点云更便宜采集、存储和标注。在600万辆车每日产生数千万英里数据(估计值)的规模下,能够经济高效地处理纯摄像头数据是 Tesla 数据飞轮运作的前提。


第2节 — 数据标注:标签管线

阶段Tesla方法Waymo方法成本/速度权衡
自动标注(神经网络标注)Tesla管线的核心:神经网络自动标注每个视频帧中的物体(行人、车辆、骑行者、标志);人工仅审查边缘案例和分歧Waymo也使用自动标注,但更依赖人工标注员进行激光雷达点云标注(比摄像头更难自动标注)Tesla:更自动化;Waymo:更多人工参与
4D标注Tesla的4D(三维空间加时间)标注跨帧追踪物体,包括遮挡情况;在Tesla AI Day 2022上作为核心创新披露Waymo对激光雷达点云使用三维边界框加摄像头;也使用时间追踪Tesla的4D方法从视频中更自然地捕捉物体轨迹
人工标注人力(估计值)Tesla雇用大量标注团队(估计数百至数千人),但自动标注降低了每帧人工需求Waymo有人工标注团队;具体规模未披露;曾与Scale AI合作进行部分标注工作两者均使用人工标注;Tesla的自动标注管线更成熟
主动学习Tesla使用主动学习:模型识别不确定的帧;这些帧被优先分配给人工标注Waymo使用类似的主动学习方法两者都优先标注最难的案例
标注质量控制神经网络自动标注与人工标注之间的分歧触发审查;追踪一致性指标Waymo将标注质量视为安全关键需求;困难帧由多位标注员处理两者都在标注质量上大量投入
每英里标注成本(估计值)Tesla目标:通过自动标注将边际成本降至接近零Waymo:激光雷达标注比摄像头更昂贵;每英里标注成本更高Tesla的纯摄像头架构实现了更便宜的大规模标注
闭环数据管线Tesla的FSD部署产生数据、自动标注、训练新模型、通过OTA部署、产生更好的数据,如此循环Waymo:无人驾驶运营产生数据、标注、训练、在模拟中验证、部署Tesla的OTA速度实现更快的闭环迭代

第3节 — 数据存储与计算基础设施

组件TeslaWaymo备注
训练计算(主要)Dojo集群(Tesla自建,ExaPOD约1 ExaFLOP估计值)加NVIDIA H100/H200 GPU(补充)Google TPU v5(通过Alphabet);Google Cloud基础设施Waymo立即受益于Google世界级TPU基础设施;Tesla建设Dojo以获得长期成本优势
数据存储(估计值)PB级别的视频;Tesla未披露具体存储容量;云端加本地混合(估计值)PB级别的多模式传感器数据;Google Cloud提供近乎无限的存储两者均拥有企业级存储;Waymo的Google Cloud访问更灵活
数据传输带宽车辆到云端:通过LTE/5G定向片段上传;非连续流传输车辆到云端:选择性上传已标记的场景两者都进行选择性上传
训练运行频率FSD更新大约每月至每周一次(OTA)Waymo更新频率较低;每月至每季一次(估计值)Tesla更快的OTA节奏实现更快的模型迭代
模型规模与架构FSD使用大型基于Transformer的神经网络;Tesla未披露参数数量Waymo使用多个专用模型(感知、预测、规划);非单一整体模型不同的架构选择反映了不同的设计哲学
合成数据增强Tesla使用模拟增强真实数据;Dojo处理合成加真实数据Waymo的CarCraft模拟每天产生150亿模拟里程(Waymo披露)两者都大量使用合成数据;Waymo的模拟量更大

第4节 — 数据飞轮:更多数据如何创造自我强化的优势

步骤Tesla飞轮Waymo飞轮飞轮强度
第1步:采集600万辆车每日产生数百万英里(估计值);影子模式标记偏差2,500辆车每日产生5至10万无人驾驶里程(估计值)Tesla:采集量500至1,000倍优势
第2步:标注自动标注处理片段;人工审查困难案例人工加自动标注;激光雷达标注成本更高Tesla:更低的边际标注成本
第3步:训练Dojo加NVIDIA;新模型在标注数据上训练Google TPU;新模型在标注加模拟数据上训练Waymo:今天计算基础设施占优;Tesla迎头赶上
第4步:部署OTA更新至600万辆车;立即大规模真实世界测试部署至2,500辆车;更慢的验证周期Tesla:更快、更大规模的部署
第5步:重复更高质量的FSD产生更好的影子数据、更好的标注、更好的模型更安全的无人驾驶产生更好的事件数据、更好的标注、更好的模型两个飞轮都在转动;Tesla的由于规模而转得更快
飞轮瓶颈(Tesla)质量控制:在自动标注规模下,标注错误会传播;系统性标注错误导致系统性模型错误Tesla必须在标注质量控制上大量投入
飞轮瓶颈(Waymo)数量:2,500辆车产生的里程约为Tesla每日里程的0.04%;模拟补偿,但模拟与真实的差距依然存在Waymo必须以卓越的模拟和标注质量弥补数量差距

第5节 — 数据管线基准测试评分卡

维度TeslaWaymo优势2028年展望
原始数据量决定性 — 来自600万辆车的每日数百万英里适中 — 来自2,500辆车的每日5至10万英里Tesla随Tesla车队增长差距扩大
每英里数据丰富度纯摄像头(更简单,标注成本更低)摄像头加激光雷达加雷达(更丰富但标注成本更高)Waymo(每英里质量)取决于丰富度是否能补偿数量差距
每英里标注成本更低 — 自动标注成熟;摄像头比激光雷达更便宜更高 — 激光雷达标注更昂贵;更多人工审查Tesla随自动标注改进,Tesla优势增长
训练计算正在建立优势(Dojo);目前由NVIDIA补充今天占优 — Google TPU基础设施Waymo(今天);Tesla(2027年+)Tesla Dojo D2预计2026至2027年 = 转折点
闭环迭代速度快速 — 每周OTA;数百万辆测试车辆较慢 — 更多验证;测试车辆更少TeslaTesla在迭代速度上的优势持久
模拟量增长中;Dojo处理合成数据每日150亿模拟里程(Waymo披露)WaymoWaymo的模拟领先优势显著

总体结论

Tesla的数据管线拥有随时间复利增长的决定性原始数量优势。Waymo的数据管线拥有质量优势——更丰富的传感器数据、更仔细的标注以及自动驾驶行业中最先进的模拟系统。这场竞赛是Tesla的数量飞轮与Waymo的质量飞轮之间的较量。结果取决于在AV能力前沿,质量还是数量更重要——截至2026年中期,这一问题仍存在真正的不确定性。


注意: 所有标有”(估计值)“的数字均来自公开披露、行业研究、分析师估计及截至2026年中期的报告数据。本文不构成投资建议或产品推荐。


来源

标签

请喝咖啡