Skip to content
AI-Daily-Builder

2026-06-18 views

Tesla FSD 數據飛輪 — 600 萬輛車如何打造無法複製的 AI 訓練迴路

Tesla 每天產生的駕駛訓練數據超過全球所有機器人計程車公司的總和。FSD 數據飛輪如何複利增長,以及為何沒有競爭者能夠複製。

Physical AI 基準系列第 95 篇 — Tesla FSD 數據飛輪:600 萬輛車如何打造自我強化的 AI 訓練迴路,以及為何沒有機器人計程車公司能夠複製

Tesla 在 Physical AI 領域最重要的競爭優勢,既不是車輛本身,也不是電池技術或製造能力。而是數據飛輪:一個自我強化的迴路——路上的每一輛 Tesla 都在產生訓練數據,改善 FSD 神經網路,提升 FSD 表現,增加 FSD 使用率,進而產生更多訓練數據。截至 2026 年中,全球估計有超過 600 萬輛具備 FSD 功能的消費者車輛在路上行駛,Tesla 每天產生的駕駛數據量超過全球所有機器人計程車公司的總和——多出許多個數量級。

本文將 FSD 數據飛輪的技術機制梳理為 Physical AI 斜坡的基準指數。這個飛輪並非行銷話術,而是一套具體可衡量的技術架構——影子模式推理、邊緣案例偵測、目標數據採集和 Dojo 訓練計算——它以規模化的方式複利增長,而沒有消費者車輛車隊的公司在結構上無法接近這一點。


第一節 — 數據飛輪的四個組成部分

FSD 數據飛輪由四個相互嵌合的機制組成。每一個機制都依賴消費者車輛車隊提供輸入,每一個機制都直接反饋給其他機制。

組件功能重要性
影子模式每輛啟用 FSD 或 Autopilot 的 Tesla,在人類駕駛的同時並行運行神經網路——對轉向、制動和加速做出預測,這些預測從不被執行,但會被記錄產生數十億個帶標籤的訓練樣本:模型的預測與人類實際行為之間的差異即為隱式標籤
邊緣案例偵測Tesla 車隊識別模型預測與人類行為存在顯著偏差的情況,或人類在 FSD 模式下不得不介入的情況自動浮現最難的場景——這正是對改進模型最有價值的數據
數據引擎(目標採集)一旦識別出一類邊緣案例(例如雨夜無保護左轉),Tesla 可以對車隊進行程式設計,主動採集該特定場景的更多樣本將被動數據採集轉化為目標課程——車隊是可程式化的訓練數據採集器
Dojo 訓練集群Tesla 專為處理車隊高吞吐量視頻數據而建造的自定義 AI 訓練基礎設施,採用 D1 晶片實現快速迭代:模型變更可以在數十億英里的車隊數據上訓練,並在數天至數週內通過 OTA 部署到車隊

飛輪複利效應: 更好的模型帶來更多 FSD 使用(用戶更信任它),進而帶來更多影子模式里程,再帶來更多邊緣案例被偵測,再帶來更好的下一代模型。這個迴路之所以能複利增長,是因為每一次改進都招募更多用戶進入影子模式數據生成的循環。

關鍵的結構洞察在於:每個組件都依賴於在真實世界條件下運行的大型消費者車輛車隊。影子模式需要有人類駕駛員的車輛。邊緣案例多樣性需要車輛在多樣的地域、天氣和道路類型中行駛。目標數據採集需要足夠大的車隊,使得對特定場景進行程式化採集能快速產生足夠的樣本。Dojo 需要數據量來支撐其資本支出的合理性。1,500 輛商業車輛組成的車隊無法以有意義的規模為這些機制提供輸入。


第二節 — 數字呈現的規模優勢

Tesla 消費者車隊相對於任何機器人計程車運營商的數據優勢並非邊際差異,而是結構性的,描述這一差距的數字根本無從接近。

數據維度Tesla 車隊(2026 年中估計)Waymo 商業車隊(2026 年中估計)比率
具備 FSD/AV 功能的車輛超過 600 萬輛消費者車輛(估計)約 1,500 至 2,000 輛商業 AV 車輛(估計)約多 3,000 至 4,000 倍
每日里程(估計)數億英里(消費者駕駛,FSD 影子模式在部分車輛上啟用)約 50 至 100 萬英里(商業車隊,每天 22 小時)(估計)約多 100 至 500 倍
每日影子模式里程數千萬英里(估計)——每英里 FSD 參與里程都產生預測數據所有商業里程均為無人駕駛;無同等影子模式Tesla 產生 Waymo 無法複製的影子模式數據
邊緣案例多樣性Tesla 銷售地區的所有道路類型、天氣條件和地理區域4 至 5 個美國城市的圍欄商業走廊;主要為晴天白天條件(估計)Tesla 看到 Waymo 可能數年內都不會遇到的數百萬個獨特場景
地理覆蓋美國、加拿大、歐洲、中國、澳大利亞——Tesla 銷售的所有地方舊金山、鳳凰城、洛杉磯、奧斯汀——4 個美國城市Tesla 的地理覆蓋為全球範圍
每年訓練數據(估計)數千億個帶標籤視頻幀(估計)數百億個高質量無人駕駛幀(估計)不同的質量結構;Tesla 擁有體量和多樣性優勢

這一比較中重要的細微差別在於,質量和數量是不同的維度。Waymo 的商業無人駕駛里程在某個特定意義上質量可以說更高:它們由完全自主的系統在無人監督下生成,這意味著每英里都是能力的證明,而非影子模式推理的演示。但 Waymo 這種高質量數據是以 Tesla 車隊數量的三千分之一、在 4 個城市中生成的,而 Tesla 的數據,無論其質量結構如何,以某種數量級到達,而當目標是覆蓋罕見道路場景的長尾時,任何質量提升都無法替代這一體量。


第三節 — 影子模式的技術運作方式

影子模式是使數據飛輪成為可能的機制,也是最常被誤解的機制,因為它在不可見的狀態下運行——人類駕駛員對其運行毫無感知。

影子模式元素技術細節
並行推理即使在人類駕駛時,FSD 神經網路也會持續對每一幀攝像頭畫面進行推理——生成從不被執行但會被記錄的預測
標籤來源人類駕駛員的實際行為是真值標籤:轉向角度、制動壓力、加速度——全部精確記錄
自動偏差標記當模型預測與人類行為存在顯著差異時(例如模型預測左轉,人類直行),該片段被標記為有趣的訓練樣本
介入標記當 FSD 啟用時,如果駕駛員介入(接管方向盤),該時刻被標記為模型失敗的案例
隱私處理片段在上傳前被匿名化;訓練數據中的人臉和車牌被模糊化(估計);Tesla 的服務條款涵蓋數據採集
上傳頻寬車輛通過家中 WiFi 或 Tesla 超級充電站上傳壓縮數據片段;高優先級邊緣案例優先上傳
體量在數百萬輛活躍影子模式車輛的條件下,Tesla 每天接收數百萬個帶標籤視頻片段(估計)

標籤來源是競爭對手無法複製的結構性優勢。在商業無人駕駛車隊中,不存在其行為能產生隱式標籤的人類駕駛員。Waymo 的訓練數據需要人工標記(人類觀看片段並標注正確行為應為何),或合成數據生成(模擬現實中未發生的場景)。這兩種方法都有效且被廣泛使用,但每個帶標籤樣本的成本都比影子模式的隱式標記機制高出數個數量級,因為影子模式以每輛車零邊際成本的方式自我標記。


第四節 — Dojo:計算基礎架構

Tesla 的 Dojo 超級電腦專為在飛輪所需的規模上處理 FSD 車隊的視頻數據而建造。沒有 Dojo——或同等的定制計算——600 萬輛車生成的數據體量在競爭優勢所需的迭代時間線內將無法處理。

Dojo 元素詳情
D1 晶片Tesla 定制的 AI 訓練晶片;針對晶片間高頻寬互連進行優化(類似 NVLink 用於視頻處理工作負載)
ExaPOD每個 ExaPOD 包含 120 個 Dojo D1 晶片;多個 ExaPOD 構成集群
訓練算力(估計)Tesla 目標到 2025 年底達到約 1 exaFLOP 訓練容量;2026 年持續擴展(估計)
對比雲端替代方案在 AWS 或 GCP 上進行 Dojo 規模的訓練每年將耗費數億美元(估計);Dojo 在足夠規模下攤銷了這一成本
視頻專業化與通用 GPU 集群不同,Dojo 專為 FSD 訓練所需的多攝像頭視頻處理流水線而優化
OTA 部署流水線訓練好的模型更新通過 Tesla 的 OTA 系統部署到車隊;訓練運行後數天內即可完成全車隊更新
迭代速度更快的訓練帶來更快的模型迭代,帶來更快的改進迴路,帶來隨時間複利增長的競爭優勢

Dojo 的戰略邏輯不僅僅是節省成本,更是迭代速度。在 Dojo 上訓練的模型可以在數週內在車隊上測試。車隊識別的回歸問題可以在數天內觸發目標數據採集活動,一週內完成再訓練,兩週內完成車隊部署。這種反饋迴路速度——從真實世界觀察到部署的模型改進——是飛輪在技術層面實現的,也是 Dojo 在計算層面實現的。在雲端規模的約束不僅是成本,還有為非通用雲端存儲架構設計的多拍字節視頻數據集啟動訓練任務的延遲。


第五節 — Waymo 無法複製的原因

FSD 數據飛輪的競爭優勢是結構性的,而非邊際性的。產生這一優勢的機制取決於擁有配備人類駕駛員的消費者車輛車隊——這一要求排除了當今所有運營的機器人計程車公司。

飛輪元素Waymo 的處境難以複製的原因
車隊規模約 1,500 至 2,000 輛商業車輛(估計)若不進入消費者汽車業務,無法縮小 3,000 至 4,000 倍的車輛差距
影子模式無同等機制——Waymo 商業車隊無人駕駛;不存在能產生隱式標籤的人類駕駛員無人駕駛運營在商業上更優,但消除了影子模式機制
地理多樣性4 至 5 個美國城市(估計)城市進入劇本限制地理擴張速度為每年 1 至 2 個新城市(估計)
消費者數據同意Alphabet 擁有消費者數據(Google Maps、Android),但沒有來自個人車輛的駕駛行為視頻需要進入消費者汽車市場——超過 1,000 億美元的資本投入
Dojo 同等物Waymo 使用 Google Cloud TPU 基礎設施(估計)獲取 Google 計算資源是強大的,但沒有車隊就不存在驅動定制晶片需求的數據體量
結構性差距Tesla 與 Waymo 之間訓練數據體量的差距在沒有消費者車輛車隊的情況下無法縮小這是護城河:它無法在 2 至 3 年內被購買或建造

重要的反面觀點是:Waymo 已經在 4 個城市實現了商業無人駕駛運營,而 Tesla 截至 2026 年中尚未在任何美國司法管轄區獲得無監督商業機器人計程車服務的監管批准(估計)。飛輪優勢是訓練數據優勢——它轉化為模型改進優勢——但模型改進最終必須在真實世界無人駕駛表現中得到驗證,才能成為商業優勢。Tesla 的飛輪正在加速能力曲線,而這條曲線是否在 Waymo 擴大其商業領先優勢之前或之後達到商業無人駕駛能力批准,是 Physical AI 斜坡的核心基準問題。


第六節 — 數據飛輪作為 Physical AI 基準指數

將 FSD 數據飛輪框架化為基準指數——而非僅僅是技術特性——使得能夠在隨時間可見複利的維度上追蹤 Physical AI 斜坡。

飛輪指標一:每季 FSD 參與里程。 Tesla 在財報電話會議上披露累計 FSD 里程。每季度參與里程的環比增長率是影子模式數據體量增長的直接代理指標。加速增長意味著飛輪在加速。

飛輪指標二:FSD 版本發布節奏。 Tesla 發布新 FSD 版本的頻率是訓練迭代速度的下游信號。更快的節奏意味著 Dojo 更快地將車隊數據處理為模型更新。

飛輪指標三:FSD 介入率。 每次介入里程指標(披露時)衡量模型質量。介入率改善結合參與里程增長,是飛輪複利效應在性能上的體現。

飛輪指標四:影子模式地理擴展。 隨著 FSD 在新國家和地區啟用,訓練數據的地理多樣性不斷擴大。每個新國家都增加了模型在訓練規模上尚未遇到的道路類型、交通法規差異和天氣模式。

飛輪指標五:Dojo 容量公告。 Tesla 關於 Dojo ExaPOD 部署和訓練算力擴展的公開聲明是飛輪處理能力增長的代理指標。更多 Dojo 意味著更快的迭代。

這五項指標共同構成 FSD 數據飛輪複利增長速率的基準指數。這個指數不衡量 Tesla 是否會獲得商業無人駕駛批准——那是監管問題。它衡量的是底層能力曲線是否在加速,而這正是商業部署之前 Physical AI 斜坡的信號。


第七節 — 關於本系列

本文是 Physical AI 基準系列的第 95 篇。前 94 篇涵蓋了斜坡指數、人形機器人競賽、單元經濟學、全球競爭、高精度地圖、軟件與 OTA 更新、消費者需求、競爭護城河、安全數據、Waymo Gen 6、Optimus 製造、記分卡快照、2030 預測場景、投資者框架、城市擴張管線、Tesla FSD 州批准地圖、AV 天氣與氣候約束、監管日曆、機器人計程車票價定價、人形機器人部署追蹤器、供應鏈分析、消費者採用需求指數、估值與 IPO 分析、Physical AI 2026 年中回顧、AV 單元經濟學每英里成本分解、AV 數據飛輪比較、Physical AI 供應鏈、AV 車隊運營、完整生命週期環境成本、無障礙層、地圖架構比較、中國 AV 競賽、模擬和合成數據訓練、AV 城市規劃與城市影響、自動駕駛卡車貨運經濟學、歐洲 AV 競爭格局、AV 感測器技術辯論、AV 安全指標、AV 人才爭奪戰、全球 AV 監管地圖、AV 財務可持續性燃燒率、Tesla Cybercab 對比 Waymo Gen 6 正面交鋒(第 84 篇)、AV 網路安全攻擊面(第 85 篇)、人形機器人商業部署格局(第 86 篇)、AV 車隊電氣化與充電競賽(第 87 篇)、AV 數據作為業務(第 88 篇)、AV 保險與責任(第 89 篇)、無人駕駛艙與乘客體驗(第 90 篇)、Physical AI 投資格局(第 91 篇)、AV 安全對比人類駕駛員統計(第 92 篇)、AV 老年人與殘障人士無障礙(第 93 篇)和 Waymo 城市擴張劇本(第 94 篇)。

本文新增 FSD 數據飛輪維度:飛輪的四個技術組件(影子模式、邊緣案例偵測、目標數據採集、Dojo)、與 Waymo 商業車隊的規模比較、影子模式作為自我標記機制的技術運作方式、Dojo 作為計算基礎架構、為何飛輪結構在沒有消費者車輛車隊的情況下無法複製,以及用於追蹤飛輪複利增長速率的五指標基準指數。

注意: 本文中的車隊規模估計、訓練數據體量估計和競爭評估均為方向性估計,基於截至 2026 年中 Tesla 的公開披露、分析師研究、Waymo 的公開聲明和新聞報導。凡數據不確定或為估計值的地方,數字均標記為「(估計)」,應視為方向性指引,而非確認的確定性數據。本文不構成投資建議。


來源

標籤

請喝咖啡