Skip to content
AI-Daily-Builder

2026-06-18 views

實體AI資料飛輪 — Tesla 6百萬輛車的訓練優勢、Waymo 5千萬英里無人駕駛里程,以及數量還是品質決定AV競賽勝負

Tesla 6M車隊 vs Waymo 5千萬無人英里:以資料飛輪為實體AI基準維度,分析數量與品質何者勝出。

實體AI基準系列第123篇 — 實體AI資料飛輪:Tesla 6百萬輛車的訓練優勢、Waymo 5千萬英里無人駕駛商業里程,以及資料數量還是品質決定AV競賽勝負

實體AI基準系列在前122篇文章中,已針對自動駕駛車輛與人形機器人的技術就緒度、營運指標、安全記錄、法規框架、供應鏈及市場估值進行全面分析。第123篇將焦點轉向實體AI中最深層的競爭護城河:資料。

每一英里的行駛都在訓練神經網路。每一個邊緣案例的記錄都在改善系統。但並非所有里程都具有同等價值。在監督模式下人類駕駛介入五次的FSD英里,與在複雜城市交通中無安全員的無人駕駛商業英里,本質上是不同的訓練信號。本文探討的核心問題是:誰擁有最多里程、誰的里程品質最高,以及現有證據顯示數量還是品質決定自動駕駛訓練競賽的勝負。

所有標記「(估計)」的數字均來自公開市場資訊、分析師估計及公司揭露,而非經過驗證的一手資料。


第一節 — 資料飛輪機制

「資料飛輪」描述的是一種自我強化循環:訓練更好的模型會產生更乾淨的訓練資料,乾淨的資料再訓練出更好的模型,如此往復。在自動駕駛車輛中,飛輪分為五個可辨識的階段,每個階段都會讓最早進入且車隊規模最大的公司的優勢複利累積。

飛輪階段發生什麼為什麼會複利累積
車輛收集資料每一幀攝影機畫面、每一個感測器讀數、每一次人類介入、每一次險情都被記錄並傳輸至訓練管道車隊規模越大,每單位時間收集的資料越多;資料收集速率與車隊規模成正比
資料標記與過濾原始影片及感測器資料被處理:邊緣案例、介入事件和罕見場景優先標記;例行公路里程則降採樣標記品質決定訓練信號品質;對邊緣案例的錯誤標記會讓模型學到錯誤行為
模型以標記資料訓練神經網路權重在標記資料集上更新;Dojo(Tesla)或TPU叢集(Waymo/Google)處理訓練執行運算能力決定模型可重新訓練的頻率;Dojo投資等同於更快的迭代週期
改進模型透過OTA部署更好的模型透過無線更新推送至車隊;由於模型犯錯的可能性降低,車隊立即生成更好的資料正向循環:更好的模型產生更乾淨的資料,乾淨的資料訓練出更好的模型,進一步降低脫離接管率
邊緣案例發現改進的模型仍會遇到新的邊緣案例;這些案例被記錄為下一輪的訓練目標分佈尾部(罕見但危險的場景)從未完全消失;資料飛輪是永恆的
車隊規模放大一切600萬輛車隊每單位時間收集的資料是1輛車隊的600萬倍Tesla的消費者車隊優勢是結構性的:沒有任何AV公司能在沒有消費者汽車業務的情況下複製600萬輛的規模

飛輪在兩端都是自我強化的。更大的車隊收集更多資料,但也能更頻繁地發現罕見事件——因為罕見事件的發生頻率與車隊規模和行駛里程成正比。擁有1,500輛車的AV公司每667個車輛運行天才能看到一次百萬分之一的道路事件,而Tesla的600萬輛車隊每天都能看到同樣的事件數百次。


第二節 — Tesla的資料優勢:數量

Tesla基於車隊的資料優勢是AV產業中規模最大的結構性護城河。沒有其他AV公司運營著可比規模的消費者車輛車隊,這意味著沒有其他AV公司能以相近的速率收集資料。

指標TeslaWaymo比例
在場收集資料的車輛約600萬輛FSD兼容車輛(估計)約1,100-1,800輛商業AV車隊(估計)多約3,300-5,400倍的車輛(估計)
每日行駛里程(車隊合計)約5,000萬-7,000萬英里/天(估計,600萬輛 x 平均每天約10英里活躍)約15萬-20萬英里/天(估計,1,500輛 x 每輛約100英里/天)每日原始里程多約250-450倍(估計)
累計監督FSD里程約50-60億英里(估計,2026年第一季已揭露範圍)約5,000萬英里無人駕駛商業里程(已揭露)原始里程多約100倍(估計)
記錄的人類介入次數監督FSD模式下的每次手動接管都被記錄並標記;在600萬輛車下,即使是罕見事件類型也頻繁發生Waymo記錄所有遠端協助介入和系統脫離接管Tesla每日記錄的介入事件多約100倍(估計)
地理多樣性美國全部50州及加拿大;歐盟有限;100,000+種道路配置鳳凰城、舊金山、洛杉磯、奧斯汀、亞特蘭大——僅限5個地理圍欄Tesla地理多樣性顯著更高
天氣多樣性涵蓋美國所有氣候的所有天氣條件鳳凰城:乾燥/炎熱;舊金山:霧;洛杉磯:溫和;降雪曝露有限Tesla全面涵蓋雪、冰、霧、雨、沙漠、公路和城市場景

地理和天氣多樣性是數量優勢中被低估的維度。僅在鳳凰城、舊金山、洛杉磯、奧斯汀和亞特蘭大訓練的模型——無論多麼深度——從未見過明尼蘇達公路上的黑冰、密西根的暴風雪或德州的季風。Tesla的車隊每天在美國每個州以規模化的方式遭遇所有這些條件。


第三節 — Waymo的資料優勢:品質

Waymo的資料優勢不是體量的——而是品質的。該公司積累了超過5,000萬英里無人駕駛商業里程,車輛中沒有人類駕駛員。這些里程產生的訓練信號與監督FSD里程有本質上的不同。

指標Waymo優勢為什麼品質重要
無人駕駛商業里程5,000萬+英里,車輛中沒有人類駕駛員;模型必須在沒有安全網的情況下處理一切無人駕駛里程產生更乾淨的訓練信號:只有模型的決策被記錄;沒有人類接管的噪聲汙染資料集
城市密度和複雜性舊金山是地球上最複雜的城市駕駛環境之一:雙排停放的快遞車輛、激進的騎行者、行人、纜車、霧氣、窄街道舊金山無人駕駛里程與公路或郊區里程相比邊緣案例密度更高
完整感測器套件資料每英里記錄的激光雷達+攝影機+雷達融合資料;3D點雲+RGB影片+速度資料更豐富的感測器資料能訓練出更強健的感知模型;Tesla的僅攝影機資料無法訓練激光雷達感知
閉環模擬Waymo使用神經渲染(基於NeRF)重建真實場景並執行數百萬個模擬變體1英里真實里程可產生1,000+個模擬變體;模擬將有效訓練資料成倍增加
每英里安全關鍵時刻密度在舊金山和鳳凰城的商業叫車服務每英里產生的安全關鍵時刻多於公路駕駛一英里舊金山無人駕駛里程可能包含的訓練價值相當於100英里公路FSD里程
標記品質Waymo有專門的資料標記團隊;3D激光雷達標記更昂貴但比2D攝影機標記更準確更高的標記成本等同於更高品質的訓練信號;Waymo每標記英里的投入更多

無人駕駛品質這一點值得特別強調。當人類駕駛員在監督FSD模式下接管時,兩件事發生了:模型的預測被中斷(反事實結果未知),以及人類的介入被記錄為訓練信號。但人類介入是不一致的——不同的駕駛員有不同的舒適度、反應閾值和修正風格。這些噪聲在Waymo的無人駕駛資料集中是缺席的,在這些資料中,模型自己的決策在真實交通中完整播放。


第四節 — 品質與數量問題:現有證據說明了什麼

AV訓練資料的「數量對比品質」辯論在大型語言模型文獻中有直接類比。DeepMind 2022年的Chinchilla論文證明了運算能力和資料數量都很重要,但在分佈尾部,資料品質(每個token的信息密度)往往比原始數量更重要。AV的等效問題是:無人駕駛里程是否是AV訓練的「高品質token」。

證據類型顯示什麼詮釋
FSD脫離接管率趨勢Tesla FSD關鍵脫離接管率從2022年到2026年改善了約10倍(估計,基於Tesla季度報告)監督里程的數量確實在產生改善;飛輪對Tesla有效
Waymo安全記錄5,000萬+英里無人駕駛,零起安全氣囊展開的碰撞事故(已揭露);遠低於人類駕駛基準品質無人駕駛里程確實在有限地理圍欄內產生了可證明安全的系統
泛化問題Tesla的FSD立即泛化到新道路(無需地圖);Waymo在新地區運營前需要高清地圖Tesla的數量方法產生地理泛化能力;Waymo的品質方法在地理圍欄內實現安全優先
邊緣案例尾部Tesla由於車隊規模每天發現更多新的邊緣案例類型;Waymo由於無人駕駛品質在地圖區域內更完整地解決邊緣案例兩者同時為真;競賽在於Tesla的數量是否能比Waymo的品質更快覆蓋邊緣案例
關鍵實驗當Tesla在奧斯汀撤除安全駕駛員時:模型是否足夠安全?這是監督里程是否能轉化為無人駕駛性能的真實測試這是AV中最重要的開放資料問題:從監督學習到無人駕駛能力的轉移率
學術證據縮放定律表明運算能力和資料數量都重要;在尾部,資料品質往往比原始數量更重要無人駕駛里程可能是AV訓練的高品質token;但Tesla的數量確保了完整分佈覆蓋

第五節 — 資料飛輪基準評分卡

將資料飛輪作為實體AI基準維度進行分析,產生了一幅Tesla和Waymo各持有不同但互補優勢的多維度圖景。

維度TeslaWaymo優勢
原始里程數量約50-60億英里監督里程(估計)約5,000萬英里無人駕駛里程Tesla多約100倍原始里程
每日資料收集速率約5,000萬-7,000萬英里/天(估計)約15萬-20萬英里/天(估計)Tesla每日累積速度快約300倍
資料品質(每英里)監督模式;人類介入為訓練信號添加噪聲無人駕駛;全程僅有模型的決策Waymo每英里品質更高
地理多樣性美國全部50州及加拿大;所有天氣條件5個地理圍欄;有限天氣曝露Tesla多樣性顯著更高
每英里邊緣案例密度較低——車隊大量行駛在公路和郊區路線較高——在複雜城市環境中的商業城市路線Waymo每英里邊緣案例密度更高
模擬倍增能力Tesla使用基於重建的模擬(估計)Waymo使用基於NeRF的場景重建(已揭露);高度發達的管道Waymo模擬倍增能力更成熟
感測器資料豐富度僅攝影機(每輛8個攝影機)激光雷達+攝影機+雷達完整融合Waymo每英里感測器資料更豐富
訓練迭代速度Dojo實現快速重訓練(估計)Google TPU叢集;世界級基礎設施相當;兩者都在訓練運算前沿
總體評判在數量、地理和天氣多樣性上勝出在品質、邊緣案例密度和感測器豐富度上勝出不同但互補的優勢;兩者對規模化安全都是必要的

評分卡揭示Tesla和Waymo並非在同一維度上競爭。Tesla正在優化廣度:對道路配置、天氣條件和地理場景的最廣泛可能覆蓋。Waymo正在優化深度:在有限運營域內對邊緣案例最完整的解決。這是解決同一問題的根本不同方法——生產能在所有條件下安全駕駛的模型。

注意: 所有標記「(估計)」的數字均來自截至2026年中期的公開市場資訊、分析師估計、行業報告和公司投資者關係材料。里程數字和車隊規模估計基於公開揭露範圍和公開分析師估計;實際數字可能存在重大差異。本文不構成投資建議。


來源

標籤

請喝咖啡