2026-06-18 — views

Tesla FSD エンドツーエンドアーキテクチャ——v12 ニューラルネットワークの内部、ルールから学習への根本的転換

Tesla FSD v12は30万行のルールベースC++を単一のエンドツーエンドニューラルネットワークに置き換え、数十億マイルの監督学習で訓練された。

フィジカルAIベンチマークシリーズ第50回 — アーキテクチャ詳細解説

ソフトウェアアーキテクチャは、自動運転システムが到達できる上限を決定する。本シリーズ第42回では、Waymoのモジュール型六層スタック——知覚、世界モデリング、予測、計画、制御が明確に分離され、各層が定義済みの入出力を持つシステム——を解説した。Tesla FSD v12はまったく逆の工学的賭けを体現している：これらすべての層を単一の学習型ニューラルネットワークに統合し、カメラ映像を入力として、数十億マイルの人間の運転行動で訓練して、ネットワーク自身が運転を学ぶまで続けるというアプローチだ。2024年初頭に公開展開されたこのアーキテクチャ的転換は、DARPA Grand Challenge以来の自動運転産業における最も決定的な工学的決断の一つである。

以下で（推定）と表記されたすべての数値は、公開された情報、工学的分析、および業界レポートに基づく推定値である。独立検証されておらず、精確な数値としてではなく方向性の参考として扱われるべきである。

第1節 — アーキテクチャの転換：v11からv12へ

v11以前のFSDはモジュール型システムだった。知覚モジュールが物体を検出して位置を推定し、車線検出モジュールが道路形状を識別し、経路計画が実行可能な軌跡を計算し、制御モジュールがその軌跡をステアリング、アクセル、ブレーキの指令に変換する。各モジュールはC++で記述され、手作業でコーディングされたルールを含んでいた。TeslaのAI前ディレクターであるAndrej Karpathyは2022年のAI Dayで、このコードベースが約30万行のC++に成長したことを明かした。ルールベースのアプローチには根本的なスケーリング問題があった：新しいエッジケースが現れるたびに新しいルールが必要になり、公道上のエッジケースは事実上無限だ。

FSD v12はこのパイプライン全体を単一のエンドツーエンドニューラルネットワークで置き換えた。カメラ映像が入り、運転アクションが出る。下の表はその転換のすべての次元を示している。

次元	FSD v11以前	FSD v12（エンドツーエンド）
コアアプローチ	モジュール型：知覚、車線検出、経路計画、制御——手作業でコーディングされたルールを持つ独立したモジュール	エンドツーエンド：カメラから直接ステアリング、アクセル、ブレーキへの単一の学習型ポリシー
コード行数	約30万行のC++（Karpathy、2022 AI Day）	大幅に削減——ほとんどの動作は記述されるのではなく学習される（推定）
学習信号	各モジュール境界での人間のラベル——物体バウンディングボックス、車線標注など	人間ドライバーの動画からの模倣学習——ポリシーが人間ドライバーの行動を模倣
汎化能力	エッジケースでルールが壊れる；異常な交差点形状が手作業でコーディングされたロジックを失敗させることも	ニューラルネットワークは訓練データに存在する形状に汎化する
デバッグ方法	モジュール単位：どの層が失敗したかを特定——知覚、予測、または計画	ブラックボックス：特定の失敗がなぜ起きたかを特定するのが困難
改善メカニズム	エンジニアがより多くのルールを書く；有限のシナリオを超えてスケールするのが困難	より多くのデータがより良いポリシーを生む；フリートサイズとともに自動的にスケール
展開範囲	FSD v11 = 単一スタック（高速道路と市街地を統合、それでもルールベース）	FSD v12 = すべての運転シナリオをカバーするエンドツーエンドニューラルポリシー

この転換の実際的な効果はすぐに見えた。FSD v11を使用したことがあるユーザーは、v12の運転行動が質的に異なると報告した——よりスムーズで、より人間らしく、無保護左折や複雑な交差点をより上手に処理する——エンジニアが新しいルールを追加したからではなく、ネットワークがまさにそれらのシナリオを実行する人間ドライバーから訓練されていたからだ。

第2節 — エンドツーエンドネットワークの仕組み

TeslaはそのAI Dayや工学プレゼンテーションでFSD v12のコアアーキテクチャを公開している。以下は公開されているコンポーネントを説明したもので、（推定）と表記された数値は公開情報から推論したものだ。

入力

FSDシステムは8台のカメラを使用する：前方、前方左、前方右、後方、後方左、後方右、狭角前方、広角前方。各カメラは約120万画素（推定）を撮影する。重要なのは、ネットワークが単一フレームを処理するのではなく——ビデオストリームを処理し、単一の静止画像では得られない動き、視差による奥行き、時間的文脈を捉えるために各カメラから複数のフレームを同時に取り込む点だ。時間的文脈はこのアーキテクチャでは任意ではなく、構造的に必要なものだ。ネットワークはシーンがどのように展開するかを見る必要があり、単一の瞬間の静止画だけでは不十分だ。

旧型Teslaハードウェアに搭載されていたレーダーは、FSDがカメラ優先に移行するにつれて優先度が下げられた。一部市場の新型生産車両では超音波センサーが取り除かれた。FSD v12は推論レイヤーで実質的にカメラのみのシステムだ。

アーキテクチャ：占有ネットワークとニューラルプランナー

コンポーネント	機能
ビデオエンコーダー	マルチカメラのビデオストリームを処理し、時空間特徴表現を生成する——「占有ネットワーク」という、どの空間が占有されてどこが空いているかをエンコードした3Dグリッド
ワールドモデル	占有ネットワークが3D世界の形状、他の車両、歩行者、動的なシーン要素を暗黙的にモデル化する——ラベル付きオブジェクトとしてではなく、学習された空間パターンとして
ニューラルプランナー	エンコードされた世界表現を受け取り、軌跡——車両が追うべきウェイポイントのシーケンス——を出力
コントローラー	アクチュエーターレベルでウェイポイントをステアリング角度、アクセル、ブレーキの指令に変換

v12の核心的な洞察は、世界モデリングと計画の間の境界が明確でないことだ。Waymoの六層スタックでは各境界が設計されたインターフェースだ。Teslaのエンドツーエンドネットワークでは、「シーンを理解する」と「何をするかを決める」の間の分離が学習された表現の中に暗黙的に存在する。ネットワークは人間ドライバーが行動するときに何に注目するかを観察することで、運転にとって何が重要かを自己学習する。意味的ラベリングの要件はない；ネットワークは運転行動に対する勾配降下法を通じて独自のシーン表現を見つける。

第3節 — 訓練：フリートスケールでの模倣学習

ルールから学習へのアーキテクチャ的転換には、対応する訓練方法の転換が必要だった。個々のモジュールの監督学習には、ラベル付きバウンディングボックス、車線標注、明示的な意味マップが必要だった——これらはすべて人間のアノテーターが動画をフレームごとにレビューすることを要求した。FSD v12のエンドツーエンド訓練にはこれが不要だ。訓練信号は人間の運転行動：各瞬間に人間ドライバーが適用したステアリング角度、アクセルレベル、ブレーキ圧だ。

訓練コンポーネント	詳細
データソース	FSDが有効化された600万台以上のTesla車両からの動画；人間ドライバーのアクションが監督信号
ラベルタイプ	人間の運転アクション——ステアリング、アクセル、ブレーキ——物体バウンディングボックスや車線標注ではない
スケール	数十億の動画フレーム；数百万の運転クリップ（推定）
データキュレーション	シャドーモードはFSDポリシーを制御を奪わずに人間ドライバーと並行して実行し、ポリシーが人間の行動から外れたクリップを識別する；これらのエッジケースが訓練で優先される
コンピューティング	DojスーパーコンピューターとNVIDIA H100クラスター；Teslaは総訓練コンピューティング予算を開示していない（推定：総計で数十億ドル）
バリデーション	実世界の離脱接管率；シミュレーション回帰テスト；閉鎖コース試験

このアプローチのスケーリング優位性は構造的に固有だ。人間が運転しFSDがシャドーモードで動作している状態で走行するすべてのTesla車両が自動的に訓練データを生成する。人間のアノテーターのボトルネックはない。Teslaのフリートがより多くのマイルを走るにつれ、訓練データセットは比例して増大し、ポリシーが改善される。これがTeslaのAIチームが中核的な競争上の堀と表現してきた「データフライホイール」だ：道路上の車両が多いほどデータが増え、データが増えるほどポリシーが良くなり、ポリシーが良くなるほど多くの人がFSDを使い、FSDを使う人が増えるほど訓練データを生成する車両が増える。

第4節 — v13とv14：v12以降の進化

FSD v12はエンドツーエンドの模倣学習が監督型自動運転に機能することを証明した。後続バージョンは特定の弱点を改善し、地理的範囲を拡大した。

バージョン	主な改善	時期
v12.3	初の公開エンドツーエンドリリース；都市運転シナリオでv11から大幅な品質向上；ファントムブレーキの大幅削減	2024年初頭
v12.5	交差点処理の改善；ファントムブレーキのさらなる削減；高速道路合流の改善	2024年中頃
v13	複数トリップ記憶——車両が特定のルートの反復使用後に学習；高速道路合流動作の改善；v12比で離脱接管率が約30–50%削減（推定）	2024年末
v13.2	追加の米国州への地理的範囲拡大；カナダの限定展開；歩行者と自転車利用者の処理改善	2025年初頭
v14（推定）	高速道路汎化の改善；都市品質の継続的向上；欧州での限定展開準備	2025–2026年（推定）

FSDバージョン間での離脱接管率の傾向はアーキテクチャ的転換の影響を反映している。推定はTeslaの公開情報とカリフォルニアDMV自律走行車報告データに基づく；ドライバーの介入要件と報告方法の変化により、バージョン間の直接比較は複雑だ。

時代	1,000マイルあたりの推定重大離脱接管回数	備考
v11時代	約0.09（推定）	ルールベースシステム；カリフォルニアDMV申告に記録
v12時代	約0.05（推定）	初のエンドツーエンド展開；大幅削減
v13時代	約0.03（推定）	エンドツーエンド基盤の上での継続的改善
人間ドライバー相当	約0.002（推定）	NHTSAデータに基づく；FSD指標と直接比較不可

v13の約0.03と人間のパフォーマンスの約0.002の間にはまだ約1桁の差がある。このギャップは業界の中核的な未解決問題を定義する：エンドツーエンドアプローチは継続的にスケールアップすることでこのギャップを完全に埋められるのか——それとも真に監督なしのロボタクシー展開に必要な10億マイルに1回の信頼性に達する前に頭打ちになるのか？

第5節 — エンドツーエンド対モジュール型：未解決の論争

Teslaのv12アーキテクチャはエンドツーエンドの模倣学習が有能な監督型ドライビングポリシーを生み出せることを証明した——FSDはアーキテクチャ転換以降、あらゆる測定可能な指標で大幅に改善されている。しかし、それが検証された安全レベルでの監督なしの完全自動運転にスケールできるかどうかはまだ解決されていない。Teslaのアプローチとウェイモのモジュール型アーキテクチャの間の論争は、今日の自動運転工学で最も中核的な知的議論だ。

主張	Teslaの賭け	Waymoの反論
スケールが安全につながる	より多くの監督型マイルとより良いモデルが、すべてのシナリオにわたる創発的な安全行動を生み出す	完全自動運転レベルの安全性は、統計的改善ではなく形式検証を必要とする
汎化能力	十分に多様なシナリオで訓練されたエンドツーエンドネットワークは新しい環境に汎化する	HDマップと明示的な制約を持つモジュール型システムは、ニューラルネットワークが上書きできないハード行動境界を提供する
解釈可能性	スケールで実証的に機能するなら解釈可能性は必要ない	解釈可能性は規制認証、責任帰属、体系的な失敗調査に必要
データ効率	消費者フリートからの数十億の監督型マイルが専用ロボタクシーデータの不足を補う	高品質な完全自動マイルとターゲットを絞ったシミュレーションが、監督なし消費者フリートデータより効率的

どちらの立場も明らかに間違っているわけではない。Teslaのアーキテクチャは監督型ドライビング指標でより速い改善軌跡を生み出している。Waymoのアーキテクチャはより強い検証済み安全記録を持つ実証済みの完全自動商業サービスを生み出している。これらはまだ直接比較できる実績ではない——Teslaはスケールで完全に無人の商業サービスを運営しておらず、WaymoはFSDのユーザビリティに近づく消費者向け監督型ドライビング製品を実証していない。

この比較が明らかにするのは、各社が行っている賭けの性質だ：Teslaはスケールとアーキテクチャの収束が安全に向かうと賭けている。Waymoは明示的な構造と検証が安全の前提条件であり、スケール単独では代替できないと賭けている。現在の開発軌跡で2027年か2028年までには、この賭けを経験的に評価するのに十分なデータが両側に揃うだろう——それは今日行われるどんな予測よりも興味深い結果だ。

出典：Tesla AI Day 2022 FSDアーキテクチャ概要（tesla.com/AI）；カリフォルニアDMV自律走行車離脱接管報告書（dmv.ca.gov）；Andrej Karpathy Tesla AI Day 2021（youtu.be/j0z4FweCy4M）；Tesla FSDバージョンリリースノート（tesla.com/support/car-software-updates）。（推定）と表記されたすべての数値は公開データ、工学的分析、および業界レポートに基づく推定値であり、独立検証されておらず、一次資料データとは異なる場合がある。