2026-06-18 — views
AV 資料飛輪比較 — Tesla 數量 vs. Waymo 品質與 AI 訓練競賽
Tesla 擁有數十億英里的監督里程;Waymo 擁有數千萬英里完全無人駕駛里程。哪種資料類型能贏得 AI 訓練競賽?
實體 AI 基準系列第 30 篇 — 訓練資料問題
Tesla 與 Waymo 之間最深層的技術差異,不在於車隊規模、行程數量或地理覆蓋,而在於各自產生的訓練資料——以及資料數量或資料品質,究竟哪個能贏得 AI 訓練競賽。Tesla 已從超過 600 萬輛消費者車輛中累積了估計 50–60 億英里的監督里程。Waymo 則累積了估計 3,000–5,000 萬英里的完全無人駕駛商業里程。這兩個數字表面上無從比較,但實際上的比較遠比看起來複雜。
本文從十個維度全面對比兩個資料飛輪,檢視核心的品質 vs. 數量辯論,解釋脫離事件缺口(這是支持品質優先於數量最強的論據),回顧 Tesla 的影子模式因應策略,並預測各公司的資料優勢如何在 2030 年前持續複利成長。
本文所有數字均為基於公開資料、公司公告、分析師報告及加州 DMV 申報的估算值。Tesla 與 Waymo 均未發布完整的資料統計報告。
第一節 — 資料飛輪比較表
下表從十個維度對比兩個資料飛輪。沒有任何單一列能說明全貌;戰略意涵需從十個維度整體解讀。
| 維度 | Tesla | Waymo |
|---|---|---|
| 累積里程(估算) | 50–60 億英里(FSD 啟用監督里程累積) | 3,000–5,000 萬英里(無人駕駛商業里程,估算) |
| 主動產生資料的車輛 | 約 200–300 萬輛(FSD 訂閱/啟用,估算) | 約 1,000–1,500 輛專用車 |
| 每日里程(估算) | 約 1,000–1,500 萬英里/天 | 約 30–50 萬英里/天 |
| 資料類型 | 監督式(人在環路中,可介入) | 完全無人駕駛(無人工介入) |
| 邊緣案例密度 | 每英里低(人工防止大多數介入) | 每英里高(每個邊緣案例均由 AV 自行解決) |
| 感測器模態 | 純攝影機(8 顆攝影機) | LiDAR + 攝影機 + 雷達(完整感測器套件) |
| 標記方法 | 自動標記 + 人工審查標記片段 | 來自感測器融合的高保真真實標記 |
| 地理多樣性 | 美國全州 + 加拿大 + 有限歐洲 | 4–5 個城市(鳳凰城、舊金山、洛杉磯、奧斯汀 + 亞特蘭大) |
| 天氣多樣性 | 高(所有氣候,監督駕駛員處理邊緣案例) | 低(僅晴天/溫和市場;無積雪驗證) |
| 脫離事件(已標記) | 罕見(人工接管但並非每次均記錄) | 每個自主邊界均記錄並標記 |
解讀表格: Tesla 在原始數量、地理廣度、天氣多樣性及每日資料生成速率上佔優。Waymo 在每英里資料品質、感測器豐富度、標記精確度及邊緣案例密度上佔優。戰略辯論核心在於:哪個軸向對訓練模型應對最艱難駕駛場景更重要。
第二節 — 品質 vs. 數量辯論
核心緊張關係有兩個面向,且兩者在技術上均站得住腳。
Tesla 的論點——數量致勝:
在估計超過 50 億英里的里程中,即使極為罕見的邊緣案例也頻繁出現,足以用於訓練。百萬分之一的事件在 50 億英里的資料集中大約會出現 5,000 次。地理多樣性是無可替代的:鳳凰城的夏季酷熱、紐約市的擁擠路況、明尼蘇達州的冬季冰雪——全部匯聚於同一資料集。車隊規模意味著資料收集幾乎是免費的;現有用戶在正常駕駛過程中產生訓練資料,每英里無需額外成本。端到端神經網路(Tesla 在 FSD v12 部署並於後續版本擴展)如果量足夠大,能從不完美的資料中提取學習。模型學會在任何有限的專用測試車輛無法複製的條件下泛化。
Waymo 的論點——品質致勝:
監督里程與無人駕駛里程本質上不同。當人類駕駛員脫離時,AI 模型永遠看不到在危機時刻應該怎麼做——人類恰好在場景變得最有教育意義的時候接管。感測器融合(LiDAR + 雷達 + 攝影機)創造了更豐富的真實標記:僅靠攝影機無法獲取深度、反射率和精確物件距離。在 Waymo 的無人駕駛資料集中,AV 每時每刻的決策都以完整感測器保真度記錄。在 Tesla 的監督資料集中,人工介入在最關鍵的時刻製造了訓練雜訊。論點:如果介入系統性地排除了最重要的場景,3,000 萬英里的完全無人駕駛里程可能包含比 50 億英里監督里程更多的可操作學習訊號。
僅憑公開資料無法解決這一問題。答案取決於各公司所做的具體架構選擇,以及其模型在訓練過程中如何為不同訊號類型加權。
第三節 — 脫離事件問題
最重要的資料不對稱,是在邊緣案例——真正困難的時刻——發生了什麼。
在 Tesla 監督駕駛中:
人類駕駛員在察覺到危險時脫離。這意味著 AI 模型在危險時刻的行為沒有被記錄——人類在危機之前或危機期間接管。結果是訓練資料集在恰恰最重要的時刻存在系統性盲點。AI 學會了導致困難場景的前因,卻學不到如何解決它,因為每次情況變得困難時,人類的解決方案就取代了 AI 的解決方案。
在 Waymo 無人駕駛中:
沒有人類可以脫離。每一個邊緣案例——險些碰撞、激進的行人穿越、道路上的碎片、複雜的多車輛匯入、模糊的施工區——都由 AI 處理並以完整感測器資料記錄。模型在最艱難場景中從自身行為中學習,在決策時刻由感測器融合提供真實標記。
這個脫離事件缺口是支持資料品質優先於數量最強的論據。Tesla 的監督資料集對輕鬆英里存在選擇性偏差:人類信任 AI 到不需要介入的那些英里。最艱難的英里——人類確實介入的那些——被記錄為介入事件,但不記錄為完整的 AI 解決軌跡。
這種選擇性偏差是否是致命性的,取決於端到端網路能否從鄰近資料推斷缺失的解決行為,還是這個缺口是不可縮減的。這是 AV 研究中最具後果性的開放問題之一。
第四節 — Tesla 的因應方式:影子模式
Tesla 通過三種機制演進其資料策略,以部分解決脫離事件問題。
影子模式: 即使在人類手動駕駛時,FSD 也在背景中做出決策。系統將其規劃的軌跡和行動與人類的實際行為進行比較——在不讓人類輸入影響車輛的情況下記錄兩者。影子模式為人類完全掌控的場景生成訓練訊號,有效地將每位 Tesla 駕駛員變成一個無意識的資料標記員。
規模化自動標記: Tesla 的訓練流水線使用車隊本身作為分散式感測器網路,對數十億個影片片段進行自動標記。Tesla 使用模型生成的標記、跨多個攝影機的一致性檢查以及對標記邊緣案例的針對性人工審查的組合,而不是支付人工標注員標記每個片段。標記流水線隨車隊而非固定的標注人力規模擴展。
介入作為負向獎勵訊號: 即使人類接管,接管事件也被記錄為負向訓練訊號——模型學習導致人工介入的行動模式,該模式獲得降低的獎勵。這將脫離事件從資料缺口轉化為不完美但有用的訓練訊號。
影子模式加上規模化自動標記是否能匹敵 Waymo 的真實標記無人駕駛訊號,是 AV 研究中最關鍵的未解決技術問題。影子模式產生數量,但可能無法產生無人駕駛里程提供的危機時刻精確解決方案。答案可能會隨著兩家公司在 2026–2028 年間擴大商業運營,在公開資料中顯現的比較安全性表現中逐漸清晰。
第五節 — 資料飛輪 2030 年前預測
資料優勢並非靜態。每家公司的飛輪以不同方式複利增長,隨著機器人計程車車隊擴大,差距也在演變。
| 年份 | Tesla 資料軌跡 | Waymo 資料軌跡 | 評估(估算) |
|---|---|---|---|
| 2026 | 60–80 億英里監督;FSD v14 訓練 | 4,000–6,000 萬無人駕駛里程;Gen 6 貢獻 | Waymo 質量領先;Tesla 數量領先 |
| 2027 | 100–120 億英里;Cybercab + FSD 消費者車隊 | 8,000–1.2 億無人駕駛里程(亞特蘭大、邁阿密加入) | 趨近——Tesla FSD 快速改善 |
| 2028 | 150 億+ 英里;機器人計程車車隊加入無人駕駛里程 | 1.5–2 億無人駕駛里程 | 若機器人計程車車隊擴大,Tesla 在無脫離資料上超前 |
| 2030 | Optimus 加入具身 AI 資料流 | Waymo 獨立上市後;5 億+ 無人駕駛里程 | Tesla(具身規模);Waymo(純 AV 深度) |
Tesla 的關鍵解鎖: 若 Tesla 將奧斯汀機器人計程車車隊擴大到數萬輛,最終達到全球數十萬輛 Cybercab,它將開始以消費者車隊速度產生自己的無人駕駛里程。一個每天產生 500 萬英里無人駕駛里程的 10 萬輛機器人計程車車隊,在持續運營約兩到三年內,將縮小與 Waymo 的品質差距。
Waymo 的關鍵解鎖: 地理擴張——增加積雪市場、當前五個城市以外的高密度城市核心,以及最終的國際市場——將實質性地改變比較表中的天氣多樣性和地理多樣性行。若 Waymo 到 2028 年在 20 個城市運營,到 2030 年在 50 個城市運營,差距將顯著縮小。
2030 年的意外因素: Tesla 的 Optimus 人形機器人計劃將增加一個全新的資料模態——具身操作和真實世界物理互動——這是 Waymo 沒有對等物的。若 Optimus 按 Tesla 預測在 2028–2029 年達到有意義的量產規模,Tesla 的資料飛輪將成為多領域資產,而非單一領域資產,其影響遠超自動駕駛,延伸至更廣泛的實體 AI 市場。
第六節 — 關於本系列
這是實體 AI 基準系列第 30 篇。本系列已涵蓋:爬坡指數、人形機器人競賽、單位經濟學、全球競爭、高精度地圖、車隊運營、軟體與 OTA、保險與責任、消費者需求、夥伴關係、競爭護城河、Cybercab vs. Model Y、安全資料、Waymo Gen 6、Optimus 製造、記分卡快照、2030 預測場景、投資人框架、Waymo 城市擴張管線、Tesla 州批准地圖、AV 天氣與氣候限制、人才競爭、前瞻性法規日曆(第 28 篇)以及機器人計程車票價定價分析(第 29 篇)。
本文解決了上述所有議題背後的基礎技術問題:哪家公司產生更好的 AI 訓練資料,而更好意味著更多還是更豐富?答案尚未定論。脫離事件缺口支持 Waymo 的品質論;Tesla 的影子模式和機器人計程車規模化軌跡是有意義的回應。資料飛輪比較將是 2026–2030 年視窗中最具後果性的技術競爭之一——而且與車隊規模或行程數量不同,它對外部觀察者來說在很大程度上是不可見的,直到訓練優勢在出現於公開資料的安全表現差異中複利顯現為止。
來源
- Tesla AI 與資料 — Tesla AI 網站 ↗
- Waymo 安全與資料 — Waymo 安全報告 ↗
- AV 脫離事件資料分析 — 加州 DMV 年度報告 ↗
- 端到端自駕研究 — arXiv ↗