Skip to content
AI-Daily-Builder

2026-06-18 views

Physical AI データパイプライン — Tesla 600万台収集フライホイール vs Waymo 毎日150億シミュレーションマイル:トレーニングインフラ競争

Teslaは600万台の車両から毎日数百万FSDマイルを収集し、Waymoは毎日150億シミュレーションマイルを実行。量vs品質がPhysical AIデータパイプライン競争を定義する。

Physical AI ベンチマークシリーズ 第155回 — Physical AIデータパイプライン:TeslaとWaymoが大規模にトレーニングデータを収集、ラベリング、保存、処理する方法

データパイプラインは、自動運転企業がAIモデルを改善する速度を決定する見えないインフラです。走行される1マイルごと、記録されるセンサーフレームごと、適用されるラベルごと、完了するトレーニング実行ごとに、後発者が縮めることが難しい複利優位が積み上がります。Teslaの自動ラベリングパイプラインは約600万台のFSD対応車両からのデータを処理し(推定値)、Waymoの人間のアノテーションチームはより小規模だが完全に無人の車隊から数十億のセンサーフレームをラベリングします。本記事はPhysical AIベンチマークシリーズの第155回です。データパイプライン全体(収集、アノテーション、保存、計算、フィードバックループ)のベンチマークを行い、データ速度がPhysical AIの競争優位にとって何を意味するかを分析します。

「(推定値)」と記されたすべての数値は、公開情報、業界調査、アナリスト推計に基づいており、独立して検証された一次データではありません。


セクション1 — データ収集:原材料はどこから来るか

次元TeslaWaymo示唆
車隊規模(データソース)全世界で約600万台のFSD対応車両(推定値);毎日約100万台以上がFSDを有効化(推定値)4都市に約2,500台の専用AV車両(推定値)Tesla:2,400倍多い車両数;生データ量で圧倒的優位
1日の収集マイル数(推定値)車隊全体で毎日数千万FSD走行マイル(推定値)毎日約5万〜10万の無人走行マイル(推定値)Tesla:毎日約500〜1,000倍多いマイル数
センサーデータ種別9台のカメラ(複数解像度);4Dレーダー;LiDARなしカメラ+LiDAR+レーダー(3モダリティすべて)Waymoは車両1台あたりのセンサーデータが豊富;Teslaははるかに多くのカメラデータを収集
1マイルあたりのデータ密度約9カメラストリーム×約36フレーム/秒=車両1台あたり約324フレーム/秒カメラ+LiDAR点群+レーダー=カメラのみの約10倍のバイト/マイルWaymoのデータは1マイルあたり豊富;Teslaのデータはマイル数が多い
エッジケース密度(推定値)600万台の規模で、Teslaは毎日あらゆる稀なシナリオを何度も経験;シャドーモードが逸脱を検出Waymoの無人車隊は稀なシナリオに遭遇する頻度が低いが、ラベリング忠実度が高いTeslaはエッジケース数量で勝利;Waymoはエッジケースラベル品質で勝利
地理的多様性米国、カナダ、EU、中国、オーストラリア — グローバルカメラデータ4つの米国都市(SF、フェニックス、LA、オースティン) — 狭いが深いTesla:グローバルシナリオ多様性;Waymo:4市場における深い都市シナリオ
データ選択(アップロード内容)すべてのマイルがアップロードされるわけではない;Teslaの車載コンピュータがFSD動作がドライバーと乖離したか不確実性に遭遇したクリップを選択すべての無人運転データが価値ある;Waymoはより少ない量のより高い割合をアップロードTeslaの標的型アップロードは帯域幅コストを削減;車載モデルが不確実とフラグしなかったシナリオを見逃すリスク

スケールvs豊富さのトレードオフ

TeslaのLiDAR不採用決定は、単なるコスト決定ではなくデータ戦略決定です。カメラデータはLiDAR点群よりも収集、保存、アノテーションが安価です。600万台の車両が毎日数千万マイルのデータを生成する規模において(推定値)、カメラのみのデータをコスト効率よく処理できることが、Teslaのデータフライホイールが機能するための前提条件です。


セクション2 — データアノテーション:ラベリングパイプライン

ステージTeslaのアプローチWaymoのアプローチコスト/速度のトレードオフ
自動ラベリング(ニューラルネットラベル)Teslaのパイプラインの中核:ニューラルネットがすべてのビデオフレーム内のオブジェクト(歩行者、車両、自転車乗り、標識)を自動ラベリング;人間はエッジケースと不一致のみレビューWaymoも自動ラベリングを使用するが、LiDAR点群ラベリングにはより多くの人間アノテーターを利用(カメラより自動ラベリングが難しい)Tesla:より自動化;Waymo:より人間が関与
4DラベリングTeslaの4D(3D空間+時間)ラベリングはオクルージョンを含めてフレーム間でオブジェクトを追跡;Tesla AI Day 2022でコアイノベーションとして開示WaymoはLiDAR点群への3Dバウンディングボックス+カメラを使用;時間的追跡も使用Teslaの4Dアプローチはビデオからオブジェクト軌跡をより自然に捉える
人間アノテーション人員(推定値)Teslaは大規模なアノテーションチームを雇用(推定数百〜数千人);自動ラベリングがフレームあたりの人間要件を削減Waymoには人間アノテーションチームがあり、正確な規模は非開示;一部の作業でScale AIと提携両社とも人間アノテーションを使用;Teslaの自動ラベルパイプラインは1マイルあたりの人間要件削減においてより成熟
能動学習Teslaは能動学習を使用:モデルが不確実なフレームを特定;それらのフレームが人間ラベリングに優先されるWaymoはAIの能動学習アプローチを使用両社ともランダムフレームではなく最難事例のラベリングを優先
ラベル品質管理ニューラルネット自動ラベルと人間ラベルの不一致がレビューを誘発;一貫性指標を追跡Waymoはラベル品質を安全クリティカル要件として強調;困難なフレームには複数アノテーター両社ともラベル品質に多大な投資;ラベルエラーはモデルエラーに伝播
1マイルあたりのラベリングコスト(推定値)Teslaの目標:自動ラベリングにより1マイルあたりの限界コストをほぼゼロに削減Waymo:LiDARアノテーションはカメラより高価;1マイルあたりのアノテーションコストが高いTeslaのカメラのみアーキテクチャで安価な大規模アノテーションが可能
クローズドループデータパイプラインTeslaが展開したFSDがデータを生成し、自動ラベリングし、新モデルをトレーニングし、OTA経由で展開し、より良いデータを生成、これを繰り返すWaymo:無人運転が データを生成し、アノテーションし、トレーニングし、シミュレーションで検証し、展開TeslaのOTA速度はクローズドループの反復を速め;Waymoのシミュレーション検証ゲートがステップを追加

セクション3 — データストレージとコンピューティングインフラ

コンポーネントTeslaWaymo注記
トレーニングコンピューティング(主要)Dojoクラスター(Tesla製、ExaPOD約1 ExaFLOP推定値)+NVIDIA H100/H200 GPU(補完)Google TPU v5(Alphabetを通じて);GoogleクラウドインフラWaymoはGoogleの世界トップクラスTPUインフラを即座に活用;TeslaはDojoで長期コスト優位を構築中
データストレージ(推定値)ペタバイト級のビデオ;Teslaは正確なストレージ容量を未開示;クラウド+オンプレミス混合(推定値)ペタバイト級のマルチモーダルセンサーデータ;Googleクラウドが事実上無制限のストレージを提供両社とも企業規模のストレージを保有;WaymoのGoogleクラウドアクセスはより柔軟
データ転送帯域幅車両からクラウドへ:LTE/5G経由の標的クリップアップロード;連続ストリーミングではない車両からクラウドへ:フラグが立てられたシナリオの選択的アップロード両社とも選択的アップロードを実施;どちらもすべてのセンサーデータを連続ストリーミングしない
トレーニング実行頻度FSDアップデートはほぼ月次〜週次で出荷(OTA);頻繁なトレーニング実行を意味するWaymoは更新頻度が低い(無人運転にはより多くの検証が必要);月次〜四半期(推定値)TeslaのOTA速度がより速いモデル反復を可能に
モデルサイズとアーキテクチャFSDは大規模Transformerベースニューラルネットを使用;Teslaはパラメータ数を未開示Waymoは複数の専門モデル(知覚、予測、計画)を使用;単一のモノリシックモデルではない異なるアーキテクチャの選択は異なる哲学を反映(エンドツーエンドvsモジュラー)
合成データ拡張Teslaはシミュレーションを使用して実データを拡張;Dojoは合成+実データを処理WaymoのCarCraftシミュレーションは毎日150億シミュレーションマイルを生成(Waymo開示);拡張に多用両社とも合成データを多用;Waymoのシミュレーション量が多い

セクション4 — データフライホイール:より多くのデータが自己強化優位を生む方法

ステップTeslaフライホイールWaymoフライホイールフライホイール強度
ステップ1:収集600万台が毎日数百万マイルを生成(推定値);シャドーモードが逸脱を検出2,500台が毎日5〜10万の無人走行マイルを生成(推定値)Tesla:収集量500〜1,000倍の優位
ステップ2:ラベリング自動ラベリングがクリップを処理;困難な事例の人間レビュー人間+自動ラベリング;LiDARラベルはより高価Tesla:1マイルあたりの限界アノテーションコストが低い
ステップ3:トレーニングDojo+NVIDIA;ラベル付きデータで新モデルをトレーニングGoogle TPU;ラベル付き+シミュレーションデータで新モデルをトレーニングWaymo:今日のコンピューティングインフラが優位;Teslaが追い上げ
ステップ4:展開600万台へのOTAアップデート;即座の大規模実世界テスト2,500台への展開;より遅い検証サイクルTesla:より速く大規模な展開
ステップ5:繰り返し高品質なFSDがより良いシャドーデータ→より良いラベル→より良いモデル→より速いサイクルを生むより安全な無人運転がより良いインシデントデータ→より良いラベル→より良いモデルを生む両フライホイールが回転;Teslaのはスケールによりより速く回転
フライホイールのボトルネック(Tesla)品質管理:自動ラベリングスケールでラベルエラーが伝播;系統的ラベルエラー→系統的モデルエラーTeslaはフライホイール品質を維持するためにラベル品質管理に多大な投資が必要
フライホイールのボトルネック(Waymo)量:2,500台はTeslaの毎日のマイル数の約0.04%を生成;シミュレーションが補完するが実世界とのギャップが残るWaymoは優れたシミュレーションとラベル品質で量のギャップを補完する必要あり

セクション5 — データパイプラインベンチマークスコアカード

次元TeslaWaymoエッジ2028年の見通し
生データ量決定的 — 600万台から毎日数百万マイル控えめ — 2,500台から毎日5〜10万マイルTeslaTesla車隊の成長とともにギャップが拡大
1マイルあたりのデータ豊富度カメラのみ(よりシンプル、アノテーションコストが低い)カメラ+LiDAR+レーダー(より豊富だがアノテーションコストが高い)Waymo(1マイルあたりの品質)豊富度が量のギャップを補えるかに依存
1マイルあたりのアノテーションコスト低い — 自動ラベリングが成熟;カメラはLiDARより安価高い — LiDARアノテーションはより高価;より多くの人間レビューTesla自動ラベリングの改善とともにTeslaの優位が拡大
トレーニングコンピューティング優位に向けて構築中(Dojo);現在はNVIDIAで補完今日は優位 — GoogleのTPUインフラWaymo(今日);Tesla(2027年以降)Tesla Dojo D2推定2026〜2027年=変曲点
クローズドループ反復速度速い — 週次OTA;数百万台のテスト車両遅い — より多くの検証;テスト車両が少ないTeslaTeslaの反復速度の優位は持続的
シミュレーション量成長中;Dojoが合成データを処理毎日150億シミュレーションマイル(Waymo開示)WaymoWaymoのシミュレーションリードは重要

総合評価

Teslaのデータパイプラインは時間とともに複利で増加する決定的な生量優位を持ちます。Waymoのデータパイプラインは品質優位を持ちます——より豊富なセンサーデータ、より慎重なアノテーション、AV業界で最も洗練されたシミュレーションです。この競争はTeslaの量フライホイールとWaymoの品質フライホイールの間の戦いです。結果はAV能力のフロンティアで品質と量のどちらが重要かに依存します——2026年半ばの時点でこれは真に不確実なままです。


注意: 「(推定値)」と記されたすべての数値は、公開情報、業界調査、アナリスト推計、および2026年半ば時点の報告データに基づいています。本記事は投資アドバイスや製品推薦を構成するものではありません。


ソース

タグ

チップ