2026-06-18 — views

Physical AI ソフトウェアスタックアーキテクチャ — Waymoのモジュラーパイプライン vs Teslaのエンドツーエンドニューラルネット：AV史上最重要な技術的決断

Waymoは解釈可能なモジュラーパイプラインを採用；Teslaは600万台フリート動画で訓練したエンドツーエンドNNに賭ける；両社はハイブリッドアーキテクチャへ収束中。

Physical AIベンチマークシリーズ第136篇 — Physical AIソフトウェアスタックアーキテクチャ：Waymoのモジュラーパイプライン vs Teslaのエンドツーエンドニューラルネット、そしてスタック選択がAV史上最重要な技術的決断である理由

自動運転工学における最大の未解決論争は、センサーでも地図でも都市でもなく、アーキテクチャについてのものである。モジュラーパイプライン（知覚・予測・計画をそれぞれ独立したモデルで処理し、各段階で解釈可能な中間出力を持つ）を構築すべきか？それともエンドツーエンドニューラルネット（生のセンサーデータを直接ネットワークに入力し、実世界フリートの動画で訓練してステアリング・アクセル・ブレーキを出力する）を構築すべきか？Waymoはモジュラーを選んだ。Teslaはエンドツーエンドを選んだ。これは単なる技術的好みではない——安全哲学、規制上の立場、デバッグ能力、そして最終的に誰がより速くスケールできるかを決定する。これはPhysical AIベンチマークシリーズ第136篇である。

「（推定）」と標記されたすべての数値は、公開開示、研究出版物、業界アナリスト推定、および合理的な推論に基づくものであり、独立検証された一次データではない。

セクション1 — Waymoのモジュラースタック

Waymoのソフトウェアアーキテクチャは階層化されたモジュラーパイプラインである。各層は下の層の出力を受け取り、1つ以上の専門ニューラルネットまたはルールベースシステムで処理し、構造化された表現を上位に渡す。設計哲学は古典的なソフトウェアエンジニアリングに根ざしている：関心の分離、各コンポーネントの独立テスト、そして任意の障害をモジュールレベルで診断できる保証。

モジュール	機能	技術	主要な優位性
知覚	生センサーデータ（ライダー+カメラ+レーダー）を受け取り、構造化された世界表現を生成：車両、歩行者、自転車、道路標示、信号機	複数の専門ニューラルネット（オブジェクトクラスごと、センサーごと）；センサーフュージョンで出力を統合	各知覚モデルを個別にテスト・検証・更新可能；安全エンジニアが中間出力を検査可能
予測	知覚から構造化世界モデルを受け取り、全エージェントの将来軌跡を予測	MultiPath++（Waymo発表の軌跡予測モデル）；将来状態の確率分布を出力	確率的出力で不確かさを明示化；プランナーがリスク認識可能
計画	予測軌跡を受け取り、Waymo車両の安全で快適な走行計画を生成	MotionCNN + 行動クローニング + ルールベース安全レイヤー；複数の競合計画を生成してスコアリング	ルールベース安全レイヤー = ニューラルネットが違反できないハード制約（例：二重黄線を越えない）
制御	計画出力を精密なステアリング・アクセル・ブレーキ指令に変換	古典制御理論（PIDコントローラー）；計画から分離可能	予測可能、認証可能、規制当局が検査可能
HDマップ	道路構造、車線形状、信号機位置の事前知識を提供	Waymo独自のHDマップ（フリートで継続更新）	知覚の不確かさを低減；ライダーがマップに対して数センチ精度で自己位置推定可能
シミュレーション	デプロイ前に合成環境で各モジュールと完全スタックをテスト	Waymoのシミulation City；NeRFベースのシーン再構築	実走行1マイルから1,000以上のシミュレーション変体を生成（推定）
安全モニター	他の全モジュールをオーバーライドして車両を安全停止できる独立ウォッチドッグ	ルールベース；ニューラルではない；証明的に正確になるよう設計	最終的な安全バックストップ；規制信頼の鍵

セクション2 — TeslaのエンドツーエンドスタックFSD v12+）

Tesla のFSD（完全自動運転）バージョン12はアーキテクチャの根本的な転換を意味した：モジュラーシステムからエンドツーエンドニューラルネットへ。FSD v12以降、Teslaの8台のカメラからの生動画がニューラルネットに流れ込み、直接走行計画を出力する——明示的な物体検出なし、明示的な軌跡予測なし、クリティカルパスにハードコードされたルールなし。ニューラルネットは数十億マイル（推定）の介入記録付き動画からなるデータセットで人間ドライバーを模倣して運転を学習する。

コンポーネント	機能	技術	主要な優位性
動画トークナイザー	8台カメラの動画フィードをニューラルネットが処理できるトークンに変換	Teslaカスタム動画トークナイザー；Vision Transformerに類似	空間+時間コンテキストを同時処理；ハードコード物体検出不要
エンドツーエンドNN	トークン化動画（過去+現在フレーム）を受け取り走行計画（軌跡+速度プロファイル）を直接出力	Transformerアーキテクチャ；600万+台フリートデータで訓練；中間構造化表現なし	エンジニアが明示的にコードできない運転行為を学習；訓練データスケールでロングテールシナリオを処理
オキュパンシーネットワーク	車両周辺空間の3D占有状況（どの空間が占有されており将来占有される可能性があるか）を予測	ニューラル占有予測；従来の物体検出+追跡を置き換え	事前定義カテゴリに当てはまらないオブジェクトを処理（ゴミ袋、珍しい車両）
自動ラベリングパイプライン	訓練用のフリート動画を自動ラベリング（大規模な人間アノテーターの必要性を回避）	ニューラルラベリングモデル；エッジケースは人間レビュー	人間アノテーションコストに比例せずに数十億マイルにスケール
HDマップなし	FSD v12+は事前構築HDマップを必要としない	視覚ベースのリアルタイムカメラ観測測位	Waymoがマップしていない都市で動作；地図維持コストなしで地理的スケール
Dojo訓練クラスター	エンドツーエンドモデルを大規模に訓練	Tesla独自D1チップ、ExaPODクラスター（1+ ExaFLOP推定）	モデル更新ごとの訓練コストがH100クラスターレンタルより低い可能性（推定）
介入ベース学習	ドライバーの介入（FSDからの引き継ぎ）がエッジケースの訓練シグナルとして記録	人間の修正に基づく教師あり学習	600万+台フリートが大量の介入データを生成

セクション3 — アーキテクチャ比較：モジュラー vs エンドツーエンド

次元	Waymo（モジュラー）	Tesla（エンドツーエンド）	判定
解釈可能性	高——各モジュールに検査可能な出力；エンジニアが正確に障害を診断	低——「なぜ左折したか？」はNNの内部状態から答えにくい	Waymo優位（デバッグと規制説明）
認証可能性	高——ルールベース安全レイヤー、分離可能モジュール、コンポーネントの形式検証可能	低——ブラックボックスNNの認証は未解決の研究問題	Waymo優位（形式的安全ケース）
スケーラビリティ（地理）	低——都市ごとにHDマップが必要（時間+コスト）；センサースイートが高価	高——マップレスFSDは道路のある都市なら動作	Tesla優位（地理的スケール）
スケーラビリティ（エッジケース）	低——新エッジケースカテゴリには明示的なエンジニアリングが必要	高——エンドツーエンドは訓練データから新行動を学習	Tesla優位（フリートデータが十分なら）
開発速度	遅——1モジュールの変更は他全モジュールとのインタラクション検証が必要	速——全モデルを再訓練；改善が自動的に現れる	Tesla優位（反復速度）
故障モード	予測可能——各モジュールに定義された故障モード；安全モニターがモジュール故障を捕捉	予測困難——新規入力分布が予期しない出力を引き起こす可能性	Waymo優位（安全に重要）
センサーコスト	高——ライダー+カメラ+レーダー；センサーコスト$5,000-15,000+（推定）	低——カメラのみ；ハードウェアコスト最小	Teslaコスト優位
地図維持コスト	高——都市ごとに継続的な地図更新が必要	ゼロ——地図維持なし	Teslaスケール時優位
現在の技術水準	Waymoのモジュラーシステムは今日の実証済み無人商業運転手法	Tesla FSD v12/v13エンドツーエンドは今日最速で改善する有人監視運転システム	両者はそれぞれのデプロイ体制で最先端

セクション4 — 収束論

トレンド	証拠	含意
業界のエンドツーエンドへの収束	Waymo、Mobileye等のモジュラースタック企業がパイプラインにニューラルエンドツーエンドコンポーネントを追加中	エンドツーエンドが長期的勝者かもしれない；モジュラー企業はそちらへヘッジしている
Teslaの構造化出力追加	TeslaのオキュパンシーネットワークとレーンはE2E出力上に構造を追加——モジュラー概念への部分的収束	ハイブリッドアーキテクチャが純粋版どちらよりも優れる可能性
学術的コンセンサスの転換	主要AVリサーチグループの論文がますますE2Eアーキテクチャを使用；WaymoのリサーチもE2E実験を示す	学術的勢いがE2Eにあり、最終的に業界に流入
LLMベースプランニングの出現	WayveなどがLLMをプランナーとして使用する実験を実施	LLMプランナーが両パラダイムを置き換える可能性
模倣 vs 強化学習	現在のE2Eシステム（Tesla含む）は主に模倣学習；RLシステムは人間行動を超えられる	両社がRLを探索；RLが次のブレークスルーかもしれない

セクション5 — ソフトウェアスタックベンチマークスコアカード

次元	Waymo	Tesla	優位
現在の無人運転信頼性	実証済——週150,000+回の乗車、1,000万+無人運転マイル（推定）	未だ無人運転なし（監視付きFSDのみ）	Waymo
解釈可能性とデバッグ性	高（モジュラー）	低（エンドツーエンドブラックボックス）	Waymo
地理的スケーラビリティ	低（都市ごとにHDマップが必要）	高（マップレスFSD）	Tesla
エッジケース学習速度	遅（エンジニアリング+再訓練が必要）	速（フリートデータ→再訓練→デプロイ）	Tesla
規制認証可能性	高（ルールベースレイヤー、検査可能モジュール）	低（NNの認証が未解決）	Waymo
車両ごとのセンサーコスト	高（~$5K-15Kライダー+カメラ+レーダー推定）	低（カメラのみ）	Tesla
アーキテクチャの方向性	ハイブリッドへ収束中（E2Eコンポーネントを追加）	ハイブリッドへ収束中（構造化出力を追加）	引き分け——両者ともハイブリッドへ向かっている
長期的勝者	不確定——モジュラーは安全説明可能性で優位；E2Eはスケーラビリティで優位；ハイブリッドが答えかもしれない	—	開かれた問い；Physical AIで最重要の未解決論争

スコアカードはAV業界がまだ解決していない根本的な緊張を明らかにする。Waymoは今日の安全認証・規制承認に最も重要なすべての次元でリードしている；Teslaは商業的な迅速なスケールに最も重要なすべての次元でリードしている。2020年代のAVアーキテクチャ論争は、最終的に両極端を先に構築し、それぞれに欠けているものを発見することで、ハイブリッドアーキテクチャがどうあるべきかを業界が学んだ10年として記憶されるかもしれない。

注記： 「（推定）」と標記されたすべての数値は、2026年中頃時点の公開開示、研究出版物、アナリスト推定、業界報告書に基づくものである。本記事は投資アドバイスを構成しない。