2026-06-18 — views
Physical AI ソフトウェアスタックアーキテクチャ — Waymoのモジュラーパイプライン vs Teslaのエンドツーエンドニューラルネット:AV史上最重要な技術的決断
Waymoは解釈可能なモジュラーパイプラインを採用;Teslaは600万台フリート動画で訓練したエンドツーエンドNNに賭ける;両社はハイブリッドアーキテクチャへ収束中。
Physical AIベンチマークシリーズ第136篇 — Physical AIソフトウェアスタックアーキテクチャ:Waymoのモジュラーパイプライン vs Teslaのエンドツーエンドニューラルネット、そしてスタック選択がAV史上最重要な技術的決断である理由
自動運転工学における最大の未解決論争は、センサーでも地図でも都市でもなく、アーキテクチャについてのものである。モジュラーパイプライン(知覚・予測・計画をそれぞれ独立したモデルで処理し、各段階で解釈可能な中間出力を持つ)を構築すべきか?それともエンドツーエンドニューラルネット(生のセンサーデータを直接ネットワークに入力し、実世界フリートの動画で訓練してステアリング・アクセル・ブレーキを出力する)を構築すべきか?Waymoはモジュラーを選んだ。Teslaはエンドツーエンドを選んだ。これは単なる技術的好みではない——安全哲学、規制上の立場、デバッグ能力、そして最終的に誰がより速くスケールできるかを決定する。これはPhysical AIベンチマークシリーズ第136篇である。
「(推定)」と標記されたすべての数値は、公開開示、研究出版物、業界アナリスト推定、および合理的な推論に基づくものであり、独立検証された一次データではない。
セクション1 — Waymoのモジュラースタック
Waymoのソフトウェアアーキテクチャは階層化されたモジュラーパイプラインである。各層は下の層の出力を受け取り、1つ以上の専門ニューラルネットまたはルールベースシステムで処理し、構造化された表現を上位に渡す。設計哲学は古典的なソフトウェアエンジニアリングに根ざしている:関心の分離、各コンポーネントの独立テスト、そして任意の障害をモジュールレベルで診断できる保証。
| モジュール | 機能 | 技術 | 主要な優位性 |
|---|---|---|---|
| 知覚 | 生センサーデータ(ライダー+カメラ+レーダー)を受け取り、構造化された世界表現を生成:車両、歩行者、自転車、道路標示、信号機 | 複数の専門ニューラルネット(オブジェクトクラスごと、センサーごと);センサーフュージョンで出力を統合 | 各知覚モデルを個別にテスト・検証・更新可能;安全エンジニアが中間出力を検査可能 |
| 予測 | 知覚から構造化世界モデルを受け取り、全エージェントの将来軌跡を予測 | MultiPath++(Waymo発表の軌跡予測モデル);将来状態の確率分布を出力 | 確率的出力で不確かさを明示化;プランナーがリスク認識可能 |
| 計画 | 予測軌跡を受け取り、Waymo車両の安全で快適な走行計画を生成 | MotionCNN + 行動クローニング + ルールベース安全レイヤー;複数の競合計画を生成してスコアリング | ルールベース安全レイヤー = ニューラルネットが違反できないハード制約(例:二重黄線を越えない) |
| 制御 | 計画出力を精密なステアリング・アクセル・ブレーキ指令に変換 | 古典制御理論(PIDコントローラー);計画から分離可能 | 予測可能、認証可能、規制当局が検査可能 |
| HDマップ | 道路構造、車線形状、信号機位置の事前知識を提供 | Waymo独自のHDマップ(フリートで継続更新) | 知覚の不確かさを低減;ライダーがマップに対して数センチ精度で自己位置推定可能 |
| シミュレーション | デプロイ前に合成環境で各モジュールと完全スタックをテスト | Waymoのシミulation City;NeRFベースのシーン再構築 | 実走行1マイルから1,000以上のシミュレーション変体を生成(推定) |
| 安全モニター | 他の全モジュールをオーバーライドして車両を安全停止できる独立ウォッチドッグ | ルールベース;ニューラルではない;証明的に正確になるよう設計 | 最終的な安全バックストップ;規制信頼の鍵 |
セクション2 — TeslaのエンドツーエンドスタックFSD v12+)
Tesla のFSD(完全自動運転)バージョン12はアーキテクチャの根本的な転換を意味した:モジュラーシステムからエンドツーエンドニューラルネットへ。FSD v12以降、Teslaの8台のカメラからの生動画がニューラルネットに流れ込み、直接走行計画を出力する——明示的な物体検出なし、明示的な軌跡予測なし、クリティカルパスにハードコードされたルールなし。ニューラルネットは数十億マイル(推定)の介入記録付き動画からなるデータセットで人間ドライバーを模倣して運転を学習する。
| コンポーネント | 機能 | 技術 | 主要な優位性 |
|---|---|---|---|
| 動画トークナイザー | 8台カメラの動画フィードをニューラルネットが処理できるトークンに変換 | Teslaカスタム動画トークナイザー;Vision Transformerに類似 | 空間+時間コンテキストを同時処理;ハードコード物体検出不要 |
| エンドツーエンドNN | トークン化動画(過去+現在フレーム)を受け取り走行計画(軌跡+速度プロファイル)を直接出力 | Transformerアーキテクチャ;600万+台フリートデータで訓練;中間構造化表現なし | エンジニアが明示的にコードできない運転行為を学習;訓練データスケールでロングテールシナリオを処理 |
| オキュパンシーネットワーク | 車両周辺空間の3D占有状況(どの空間が占有されており将来占有される可能性があるか)を予測 | ニューラル占有予測;従来の物体検出+追跡を置き換え | 事前定義カテゴリに当てはまらないオブジェクトを処理(ゴミ袋、珍しい車両) |
| 自動ラベリングパイプライン | 訓練用のフリート動画を自動ラベリング(大規模な人間アノテーターの必要性を回避) | ニューラルラベリングモデル;エッジケースは人間レビュー | 人間アノテーションコストに比例せずに数十億マイルにスケール |
| HDマップなし | FSD v12+は事前構築HDマップを必要としない | 視覚ベースのリアルタイムカメラ観測測位 | Waymoがマップしていない都市で動作;地図維持コストなしで地理的スケール |
| Dojo訓練クラスター | エンドツーエンドモデルを大規模に訓練 | Tesla独自D1チップ、ExaPODクラスター(1+ ExaFLOP推定) | モデル更新ごとの訓練コストがH100クラスターレンタルより低い可能性(推定) |
| 介入ベース学習 | ドライバーの介入(FSDからの引き継ぎ)がエッジケースの訓練シグナルとして記録 | 人間の修正に基づく教師あり学習 | 600万+台フリートが大量の介入データを生成 |
セクション3 — アーキテクチャ比較:モジュラー vs エンドツーエンド
| 次元 | Waymo(モジュラー) | Tesla(エンドツーエンド) | 判定 |
|---|---|---|---|
| 解釈可能性 | 高——各モジュールに検査可能な出力;エンジニアが正確に障害を診断 | 低——「なぜ左折したか?」はNNの内部状態から答えにくい | Waymo優位(デバッグと規制説明) |
| 認証可能性 | 高——ルールベース安全レイヤー、分離可能モジュール、コンポーネントの形式検証可能 | 低——ブラックボックスNNの認証は未解決の研究問題 | Waymo優位(形式的安全ケース) |
| スケーラビリティ(地理) | 低——都市ごとにHDマップが必要(時間+コスト);センサースイートが高価 | 高——マップレスFSDは道路のある都市なら動作 | Tesla優位(地理的スケール) |
| スケーラビリティ(エッジケース) | 低——新エッジケースカテゴリには明示的なエンジニアリングが必要 | 高——エンドツーエンドは訓練データから新行動を学習 | Tesla優位(フリートデータが十分なら) |
| 開発速度 | 遅——1モジュールの変更は他全モジュールとのインタラクション検証が必要 | 速——全モデルを再訓練;改善が自動的に現れる | Tesla優位(反復速度) |
| 故障モード | 予測可能——各モジュールに定義された故障モード;安全モニターがモジュール故障を捕捉 | 予測困難——新規入力分布が予期しない出力を引き起こす可能性 | Waymo優位(安全に重要) |
| センサーコスト | 高——ライダー+カメラ+レーダー;センサーコスト$5,000-15,000+(推定) | 低——カメラのみ;ハードウェアコスト最小 | Teslaコスト優位 |
| 地図維持コスト | 高——都市ごとに継続的な地図更新が必要 | ゼロ——地図維持なし | Teslaスケール時優位 |
| 現在の技術水準 | Waymoのモジュラーシステムは今日の実証済み無人商業運転手法 | Tesla FSD v12/v13エンドツーエンドは今日最速で改善する有人監視運転システム | 両者はそれぞれのデプロイ体制で最先端 |
セクション4 — 収束論
| トレンド | 証拠 | 含意 |
|---|---|---|
| 業界のエンドツーエンドへの収束 | Waymo、Mobileye等のモジュラースタック企業がパイプラインにニューラルエンドツーエンドコンポーネントを追加中 | エンドツーエンドが長期的勝者かもしれない;モジュラー企業はそちらへヘッジしている |
| Teslaの構造化出力追加 | TeslaのオキュパンシーネットワークとレーンはE2E出力上に構造を追加——モジュラー概念への部分的収束 | ハイブリッドアーキテクチャが純粋版どちらよりも優れる可能性 |
| 学術的コンセンサスの転換 | 主要AVリサーチグループの論文がますますE2Eアーキテクチャを使用;WaymoのリサーチもE2E実験を示す | 学術的勢いがE2Eにあり、最終的に業界に流入 |
| LLMベースプランニングの出現 | WayveなどがLLMをプランナーとして使用する実験を実施 | LLMプランナーが両パラダイムを置き換える可能性 |
| 模倣 vs 強化学習 | 現在のE2Eシステム(Tesla含む)は主に模倣学習;RLシステムは人間行動を超えられる | 両社がRLを探索;RLが次のブレークスルーかもしれない |
セクション5 — ソフトウェアスタックベンチマークスコアカード
| 次元 | Waymo | Tesla | 優位 |
|---|---|---|---|
| 現在の無人運転信頼性 | 実証済——週150,000+回の乗車、1,000万+無人運転マイル(推定) | 未だ無人運転なし(監視付きFSDのみ) | Waymo |
| 解釈可能性とデバッグ性 | 高(モジュラー) | 低(エンドツーエンドブラックボックス) | Waymo |
| 地理的スケーラビリティ | 低(都市ごとにHDマップが必要) | 高(マップレスFSD) | Tesla |
| エッジケース学習速度 | 遅(エンジニアリング+再訓練が必要) | 速(フリートデータ→再訓練→デプロイ) | Tesla |
| 規制認証可能性 | 高(ルールベースレイヤー、検査可能モジュール) | 低(NNの認証が未解決) | Waymo |
| 車両ごとのセンサーコスト | 高(~$5K-15Kライダー+カメラ+レーダー推定) | 低(カメラのみ) | Tesla |
| アーキテクチャの方向性 | ハイブリッドへ収束中(E2Eコンポーネントを追加) | ハイブリッドへ収束中(構造化出力を追加) | 引き分け——両者ともハイブリッドへ向かっている |
| 長期的勝者 | 不確定——モジュラーは安全説明可能性で優位;E2Eはスケーラビリティで優位;ハイブリッドが答えかもしれない | — | 開かれた問い;Physical AIで最重要の未解決論争 |
スコアカードはAV業界がまだ解決していない根本的な緊張を明らかにする。Waymoは今日の安全認証・規制承認に最も重要なすべての次元でリードしている;Teslaは商業的な迅速なスケールに最も重要なすべての次元でリードしている。2020年代のAVアーキテクチャ論争は、最終的に両極端を先に構築し、それぞれに欠けているものを発見することで、ハイブリッドアーキテクチャがどうあるべきかを業界が学んだ10年として記憶されるかもしれない。
注記: 「(推定)」と標記されたすべての数値は、2026年中頃時点の公開開示、研究出版物、アナリスト推定、業界報告書に基づくものである。本記事は投資アドバイスを構成しない。
ソース
- Waymo MultiPath++ 軌跡予測 — Waymoリサーチ ↗
- Tesla FSD v12 エンドツーエンドアーキテクチャ — Tesla AI Day ↗
- Tesla オキュパンシーネットワーク — Tesla AI ↗
- Waymo シミュレーションインフラ — Waymoリサーチ ↗
- エンドツーエンド自動運転サーベイ — arXiv ↗