Skip to content
AI-Daily-Builder

2026-06-18 views

Physical AI ソフトウェアスタックアーキテクチャ — Waymoのモジュラーパイプライン vs Teslaのエンドツーエンドニューラルネット:AV史上最重要な技術的決断

Waymoは解釈可能なモジュラーパイプラインを採用;Teslaは600万台フリート動画で訓練したエンドツーエンドNNに賭ける;両社はハイブリッドアーキテクチャへ収束中。

Physical AIベンチマークシリーズ第136篇 — Physical AIソフトウェアスタックアーキテクチャ:Waymoのモジュラーパイプライン vs Teslaのエンドツーエンドニューラルネット、そしてスタック選択がAV史上最重要な技術的決断である理由

自動運転工学における最大の未解決論争は、センサーでも地図でも都市でもなく、アーキテクチャについてのものである。モジュラーパイプライン(知覚・予測・計画をそれぞれ独立したモデルで処理し、各段階で解釈可能な中間出力を持つ)を構築すべきか?それともエンドツーエンドニューラルネット(生のセンサーデータを直接ネットワークに入力し、実世界フリートの動画で訓練してステアリング・アクセル・ブレーキを出力する)を構築すべきか?Waymoはモジュラーを選んだ。Teslaはエンドツーエンドを選んだ。これは単なる技術的好みではない——安全哲学、規制上の立場、デバッグ能力、そして最終的に誰がより速くスケールできるかを決定する。これはPhysical AIベンチマークシリーズ第136篇である。

「(推定)」と標記されたすべての数値は、公開開示、研究出版物、業界アナリスト推定、および合理的な推論に基づくものであり、独立検証された一次データではない。


セクション1 — Waymoのモジュラースタック

Waymoのソフトウェアアーキテクチャは階層化されたモジュラーパイプラインである。各層は下の層の出力を受け取り、1つ以上の専門ニューラルネットまたはルールベースシステムで処理し、構造化された表現を上位に渡す。設計哲学は古典的なソフトウェアエンジニアリングに根ざしている:関心の分離、各コンポーネントの独立テスト、そして任意の障害をモジュールレベルで診断できる保証。

モジュール機能技術主要な優位性
知覚生センサーデータ(ライダー+カメラ+レーダー)を受け取り、構造化された世界表現を生成:車両、歩行者、自転車、道路標示、信号機複数の専門ニューラルネット(オブジェクトクラスごと、センサーごと);センサーフュージョンで出力を統合各知覚モデルを個別にテスト・検証・更新可能;安全エンジニアが中間出力を検査可能
予測知覚から構造化世界モデルを受け取り、全エージェントの将来軌跡を予測MultiPath++(Waymo発表の軌跡予測モデル);将来状態の確率分布を出力確率的出力で不確かさを明示化;プランナーがリスク認識可能
計画予測軌跡を受け取り、Waymo車両の安全で快適な走行計画を生成MotionCNN + 行動クローニング + ルールベース安全レイヤー;複数の競合計画を生成してスコアリングルールベース安全レイヤー = ニューラルネットが違反できないハード制約(例:二重黄線を越えない)
制御計画出力を精密なステアリング・アクセル・ブレーキ指令に変換古典制御理論(PIDコントローラー);計画から分離可能予測可能、認証可能、規制当局が検査可能
HDマップ道路構造、車線形状、信号機位置の事前知識を提供Waymo独自のHDマップ(フリートで継続更新)知覚の不確かさを低減;ライダーがマップに対して数センチ精度で自己位置推定可能
シミュレーションデプロイ前に合成環境で各モジュールと完全スタックをテストWaymoのシミulation City;NeRFベースのシーン再構築実走行1マイルから1,000以上のシミュレーション変体を生成(推定)
安全モニター他の全モジュールをオーバーライドして車両を安全停止できる独立ウォッチドッグルールベース;ニューラルではない;証明的に正確になるよう設計最終的な安全バックストップ;規制信頼の鍵

セクション2 — TeslaのエンドツーエンドスタックFSD v12+)

Tesla のFSD(完全自動運転)バージョン12はアーキテクチャの根本的な転換を意味した:モジュラーシステムからエンドツーエンドニューラルネットへ。FSD v12以降、Teslaの8台のカメラからの生動画がニューラルネットに流れ込み、直接走行計画を出力する——明示的な物体検出なし、明示的な軌跡予測なし、クリティカルパスにハードコードされたルールなし。ニューラルネットは数十億マイル(推定)の介入記録付き動画からなるデータセットで人間ドライバーを模倣して運転を学習する。

コンポーネント機能技術主要な優位性
動画トークナイザー8台カメラの動画フィードをニューラルネットが処理できるトークンに変換Teslaカスタム動画トークナイザー;Vision Transformerに類似空間+時間コンテキストを同時処理;ハードコード物体検出不要
エンドツーエンドNNトークン化動画(過去+現在フレーム)を受け取り走行計画(軌跡+速度プロファイル)を直接出力Transformerアーキテクチャ;600万+台フリートデータで訓練;中間構造化表現なしエンジニアが明示的にコードできない運転行為を学習;訓練データスケールでロングテールシナリオを処理
オキュパンシーネットワーク車両周辺空間の3D占有状況(どの空間が占有されており将来占有される可能性があるか)を予測ニューラル占有予測;従来の物体検出+追跡を置き換え事前定義カテゴリに当てはまらないオブジェクトを処理(ゴミ袋、珍しい車両)
自動ラベリングパイプライン訓練用のフリート動画を自動ラベリング(大規模な人間アノテーターの必要性を回避)ニューラルラベリングモデル;エッジケースは人間レビュー人間アノテーションコストに比例せずに数十億マイルにスケール
HDマップなしFSD v12+は事前構築HDマップを必要としない視覚ベースのリアルタイムカメラ観測測位Waymoがマップしていない都市で動作;地図維持コストなしで地理的スケール
Dojo訓練クラスターエンドツーエンドモデルを大規模に訓練Tesla独自D1チップ、ExaPODクラスター(1+ ExaFLOP推定)モデル更新ごとの訓練コストがH100クラスターレンタルより低い可能性(推定)
介入ベース学習ドライバーの介入(FSDからの引き継ぎ)がエッジケースの訓練シグナルとして記録人間の修正に基づく教師あり学習600万+台フリートが大量の介入データを生成

セクション3 — アーキテクチャ比較:モジュラー vs エンドツーエンド

次元Waymo(モジュラー)Tesla(エンドツーエンド)判定
解釈可能性高——各モジュールに検査可能な出力;エンジニアが正確に障害を診断低——「なぜ左折したか?」はNNの内部状態から答えにくいWaymo優位(デバッグと規制説明)
認証可能性高——ルールベース安全レイヤー、分離可能モジュール、コンポーネントの形式検証可能低——ブラックボックスNNの認証は未解決の研究問題Waymo優位(形式的安全ケース)
スケーラビリティ(地理)低——都市ごとにHDマップが必要(時間+コスト);センサースイートが高価高——マップレスFSDは道路のある都市なら動作Tesla優位(地理的スケール)
スケーラビリティ(エッジケース)低——新エッジケースカテゴリには明示的なエンジニアリングが必要高——エンドツーエンドは訓練データから新行動を学習Tesla優位(フリートデータが十分なら)
開発速度遅——1モジュールの変更は他全モジュールとのインタラクション検証が必要速——全モデルを再訓練;改善が自動的に現れるTesla優位(反復速度)
故障モード予測可能——各モジュールに定義された故障モード;安全モニターがモジュール故障を捕捉予測困難——新規入力分布が予期しない出力を引き起こす可能性Waymo優位(安全に重要)
センサーコスト高——ライダー+カメラ+レーダー;センサーコスト$5,000-15,000+(推定)低——カメラのみ;ハードウェアコスト最小Teslaコスト優位
地図維持コスト高——都市ごとに継続的な地図更新が必要ゼロ——地図維持なしTeslaスケール時優位
現在の技術水準Waymoのモジュラーシステムは今日の実証済み無人商業運転手法Tesla FSD v12/v13エンドツーエンドは今日最速で改善する有人監視運転システム両者はそれぞれのデプロイ体制で最先端

セクション4 — 収束論

トレンド証拠含意
業界のエンドツーエンドへの収束Waymo、Mobileye等のモジュラースタック企業がパイプラインにニューラルエンドツーエンドコンポーネントを追加中エンドツーエンドが長期的勝者かもしれない;モジュラー企業はそちらへヘッジしている
Teslaの構造化出力追加TeslaのオキュパンシーネットワークとレーンはE2E出力上に構造を追加——モジュラー概念への部分的収束ハイブリッドアーキテクチャが純粋版どちらよりも優れる可能性
学術的コンセンサスの転換主要AVリサーチグループの論文がますますE2Eアーキテクチャを使用;WaymoのリサーチもE2E実験を示す学術的勢いがE2Eにあり、最終的に業界に流入
LLMベースプランニングの出現WayveなどがLLMをプランナーとして使用する実験を実施LLMプランナーが両パラダイムを置き換える可能性
模倣 vs 強化学習現在のE2Eシステム(Tesla含む)は主に模倣学習;RLシステムは人間行動を超えられる両社がRLを探索;RLが次のブレークスルーかもしれない

セクション5 — ソフトウェアスタックベンチマークスコアカード

次元WaymoTesla優位
現在の無人運転信頼性実証済——週150,000+回の乗車、1,000万+無人運転マイル(推定)未だ無人運転なし(監視付きFSDのみ)Waymo
解釈可能性とデバッグ性高(モジュラー)低(エンドツーエンドブラックボックス)Waymo
地理的スケーラビリティ低(都市ごとにHDマップが必要)高(マップレスFSD)Tesla
エッジケース学習速度遅(エンジニアリング+再訓練が必要)速(フリートデータ→再訓練→デプロイ)Tesla
規制認証可能性高(ルールベースレイヤー、検査可能モジュール)低(NNの認証が未解決)Waymo
車両ごとのセンサーコスト高(~$5K-15Kライダー+カメラ+レーダー推定)低(カメラのみ)Tesla
アーキテクチャの方向性ハイブリッドへ収束中(E2Eコンポーネントを追加)ハイブリッドへ収束中(構造化出力を追加)引き分け——両者ともハイブリッドへ向かっている
長期的勝者不確定——モジュラーは安全説明可能性で優位;E2Eはスケーラビリティで優位;ハイブリッドが答えかもしれない開かれた問い;Physical AIで最重要の未解決論争

スコアカードはAV業界がまだ解決していない根本的な緊張を明らかにする。Waymoは今日の安全認証・規制承認に最も重要なすべての次元でリードしている;Teslaは商業的な迅速なスケールに最も重要なすべての次元でリードしている。2020年代のAVアーキテクチャ論争は、最終的に両極端を先に構築し、それぞれに欠けているものを発見することで、ハイブリッドアーキテクチャがどうあるべきかを業界が学んだ10年として記憶されるかもしれない。

注記: 「(推定)」と標記されたすべての数値は、2026年中頃時点の公開開示、研究出版物、アナリスト推定、業界報告書に基づくものである。本記事は投資アドバイスを構成しない。


ソース

タグ

チップ