Skip to content
AI-Daily-Builder

2026-06-18 views

自動運転の歩行者・自転車検出――最も困難な知覚問題と安全データ

歩行者と自転車はAVセンサーにとって最難の検出対象――小さく、速く、予測不能。検出科学と安全データを解説する。

フィジカルAIベンチマークシリーズ 第59回――最も困難な知覚問題

自動運転車が検出しなければならないすべての対象の中で、歩行者と自転車利用者は最も重要であり、技術的に最も困難なターゲットだ。事故が起きたとき、命を落とすのは彼らであり、センサーが最も苦手とするのも彼らである。自動車は大型で剛体、レーダー反射断面積が大きく、予測可能な軌跡を走行する。一方、歩行者は小型で関節構造を持ち、レーダー反射断面積が非常に小さく、瞬時に方向を変え、死角から突然現れ、ほぼ無限の外観バリエーションを持つ。自転車利用者はさらに速く、機動性が高く、車両と歩行者の間の空間を走行するが、道路インフラが明確に設計していることはほとんどない。

本稿では、具体的な検出課題、各センサーモダリティの貢献、現行量産システムのアプローチの違い、そして利用可能な安全データが示すものを解説する。


第1節――歩行者と自転車利用者がなぜ特別に困難なのか

困難さは単一の要因ではなく、多くの課題の複合から生まれる。以下の各課題は互いを増幅する。

課題詳細
小さなサイズ歩行者の前面断面積は約0.5平方メートル、自動車は約6平方メートル。レーダー反射断面積はさらに小さく、歩行者が返すレーダー信号は弱く、他の小さな物体のノイズに埋もれやすい。
予測不能な動き歩行者はシグナルなしに瞬時に方向を変えられる。特に子どもは突然横方向に動きやすい。自動車の軌跡は2〜3秒先まで合理的に予測できるが、歩行者はできない。
遮蔽と突然の出現歩行者は駐車車両の間、建物の角、バスのドアから突然センサー視野に入る――警告時間ゼロで。車両は確立された車線から接近するので、まったく異なる。
関節体の構造腕と脚は胴体とは独立して動く。歩行者の検出は剛体バウンディングボックスを見つけることではなく、各肢体が独立した動きベクトルを持つ変形可能な物体を認識することであり、歩行意図を理解するには姿勢推定が必要。
外観の多様性明るい黄色のジャケットを着ていることも、暗い色のコートを着ていることも、傘をさしていることも、ベビーカーを押していることも、車椅子に乗っていることも、コスチュームを着ていることもある。視覚的多様性は車両の外観変化を桁違いに超える。
低照度での脆弱性米国の歩行者死亡事故の75%以上が暗闇の中で発生している(NHTSAデータ)。人間のドライバーは夜間に能力が低下するが、カメラベースのAVシステムも同じ低下に直面し、参照となるヘッドライト照明がない。
集団動態交差点での群衆、互いを遮蔽しあう複数の歩行者――複数主体の群集行動予測は単一物体の追跡よりはるかに複雑。
エッジケース車椅子利用者、障害や怪我による非定型歩行の人、非標準ジェスチャーで交通整理する警察官、道路近くの遊具に乗った子ども、イベントのコスチュームキャラクター――外観と行動の長尾は非常に長い。

自転車利用者はこれにスピードの複雑さを加える。自転車は時速25〜40kmで走行し、歩行者より速いが交差点では歩行者と空間を共有する。手信号は小さく短い。車線位置はしばしば曖昧だ。歩行者と同様、自転車利用者の構成も多様:荷物袋、トレーラー、ヘルメット有り・無し、集団・単独。


第2節――各センサーがどう歩行者に対応するか

単一のセンサーで歩行者検出問題を解決できるものはない。実際の問題は、どの組み合わせが様々な故障モードにわたって最良のカバレッジを提供するかだ。

センサー歩行者検出の強み主な限界
カメラ(可視光)日中条件で優秀:色、テクスチャ、身体姿勢をすべて捕捉;深層学習検出器(YOLOファミリー、DETRベースアーキテクチャ)は標準的な明るい環境で高精度。動画(時系列)は単一フレームでは得られない動きの手がかりを可能にする。夜間:十分な照明がなければ大幅に劣化。大雨:コントラスト低下とレンズの水滴が画質を悪化。遮蔽:固体を透過して見ることができず、部分的な身体検出は推論に頼る。
LiDAR照明条件にほぼ依存しない3D点群を生成。駐車車両の後ろから歩行者の足を検出できる――全身が見える前に、遮蔽シナリオでの主要な優位性。3D境界ボックスにより外観に依存しない距離推定が可能。反射率の非常に低い衣服(暗い冬用コート)は戻り強度を低下させる。大雨はレーザービームを減衰させる。遠距離の小さな目標は戻り点数が少なく、信頼度が低下する。
レーダー雨や霧を通して動きと径方向速度(ドップラー)を確実に検出。悪天候で強健。角分解能が低い――形状では歩行者と小動物、ゴミ箱、郵便受けを区別できない。速度と大まかな距離のみを提供し、形状や姿勢情報はない。路傍インフラからの誤検知が多い。
熱赤外線(IR)体熱を直接検出;環境光や人工照明なしに完全な暗闇でも機能する。高価なセンサーで量産車での入手性は限られる。可視カメラと比べて解像度が低い。形状や姿勢の詳細を提供しないため分類が困難。路面熱や車両エンジンなどの環境熱源がクラッタを生成する。
センサーフュージョンLiDARが3D位置と形状を提供;カメラが外観分類と姿勢を提供;レーダーが速度と悪天候での頑健性を提供。組み合わせにより、単一センサーよりはるかに高い信頼度で歩行者を検出・分類・追跡し意図を予測できる。フュージョンの複雑さは固有の故障モードを導入する。フュージョンアルゴリズムがキャリブレーションドリフトにより異なるセンサーの検出を誤って統合すると、個々のセンサーエラーより発見しにくい偽陰性を生む可能性がある。

第3節――TeslaのカメラのみによるによるI歩行者検出

TeslaのFSDシステムはカメラ優先の哲学に基づいており、現在の量産FSD車にはLiDARもレーダーも搭載されていない(レーダーは2021年以降、ほとんどの車種から削除)。歩行者検出はカメラ画像からのニューラルネットワーク推論に完全に依存する。

側面詳細
検出アーキテクチャFSDはエンドツーエンドニューラルネットワークアプローチ(v12アーキテクチャ)を採用し、フリートが収集した大規模データセットで訓練されている。システムは動画シーケンス(単一フレームではなく)を処理し、遮蔽処理のための時間的コンテキストを可能にする。
スケールの優位性Teslaフリートは地理、気象条件、時間帯を超えた膨大な多様な歩行者との遭遇データを収集しており、訓練データセットの規模は外観多様性の課題に対処する本物の競争優位性だ。
日中のパフォーマンス日中の標準的な都市歩行者検出(横断歩道の歩行者、歩道の歩行者、自転車レーンのサイクリスト)は良好。電柱、犬、ゴミ箱などの同程度のサイズの物体と歩行者を区別できる。
夜間の弱点LiDARがなければ、システムはヘッドライトが照らす範囲と周囲光に完全に依存する。暗い衣服を着た歩行者が照明不足の道路上にいる場合、関連する停止距離ではヘッドライト照明がほとんど届かない。これはカメラのみのシステムにとって歩行者安全における最も重大な脆弱性だ。
遮蔽時の時間的推論歩行者が2秒前に見えていて今は遮蔽されている場合、モデルはその歩行者が遮蔽後にいる可能性が高い位置の推定軌跡を維持する。これは有意義な能力だが、測定ではなく推論だ。
意図予測FSD v13は歩行者の意図シグナルの読み取りを改善した――頭の回転方向、道路に向かう体の傾き、横断歩道での挙手。これらは人間のドライバーが使う本物の行動手がかりであり、ニューラルネットワークに教えることは意味のある進歩だ。パフォーマンスはまだ不完全で独立した検証はない(推定)。
ファントムブレーキの歴史初期のFSDバージョンでは、影、ビニール袋、茂みを歩行者と誤識別することによるファントムブレーキの頻度が高かった。FSD v12とv13でこの問題は大幅に改善され、偽陽性削減におけるフリートスケール訓練データの価値を反映している。
自動運転安全データ2026年中頃時点で、Tesla FSDは人間の監視下で動作している。Waymoの公開ロボタクシーデータに相当するスケールの自動運転歩行者インタラクション安全データベースは存在しない。

第4節――Waymoのマルチセンサー歩行者検出

Waymoの車両は、単一センサーの故障が検出盲点を作らないよう設計されたセンサースイートを搭載している。歩行者については、LiDARが主要検出センサーで、カメラが確認と分類の詳細を提供する。

側面詳細
LiDARの主要な役割3D点群は照明条件にほぼ依存せずに歩行者の形状を検出する――夜間でも、雨天でも、ヘッドライトなしでも。完全な暗闇の中50m先を歩く歩行者が人型の点クラスターを返し、LiDARクラシファイアが人間と識別する。夜間と昼間のパフォーマンスは実質的に同等だ。
カメラによる確認カメラはLiDARが検出した物体に色、テクスチャ、衣服の詳細、身体姿勢推定を追加し、より細かい分類(大人vs子ども、荷物付き自転車vs通常)と姿勢からの意図推論を可能にする。
レーダー速度レイヤーレーダーは検出された物体が動いていることを確認し、速度ベクトルを提供する。歩道に静止している歩行者と道路に踏み出そうとしている歩行者を区別するのに役立つ。
遮蔽優位性LiDARは駐車車両の後ろから歩行者の足を検出でき、全身が見える前に警告を提供する。30mの距離では、カメラのみのシステムよりも約0.5〜1.0秒の追加警告を提供する――都市走行速度ではこのマージンは重要だ。
暗闇での検出距離LiDARは完全な暗闇でも50〜80m先の歩行者を検出できる(推定)。ヘッドライト照明に依存するカメラシステムは、同様の速度で約40m先までしか見えない――街灯が不十分な交差点では、このギャップは重要だ。
公開安全データWaymoの2023年安全レポートは約700万マイルの自動運転走行をカバーし、Waymoシステムの過失に帰因する重篤な歩行者負傷はゼロと報告した(公開データより)。これは方向性の知見であり、決定的な統計比較ではない――運営環境(主にフェニックスとサンフランシスコの都市部)と「重篤負傷」の定義がNHTSA基準と異なる。
自転車利用者特有の検出サイクリストは歩行者より速く(時速25〜40km)走行するため、軌跡予測の時間感度が高くなる。LiDARは自転車フレームとライダーを組み合わせた物体として追跡し、カメラは手信号と身体位置を分類し、レーダーが速度確認を提供する。マルチセンサースタックはカメラのみよりも早く確実な分類を可能にする(推定)。

第5節――安全比較:AV vs 人間ドライバー

AVへの投資と規制の核心的な問いは、最もリスクにさらされている道路利用者に対して、この技術が人間のベースラインよりも明確に安全かどうかだ。2026年中頃時点での誠実な答えは:運営ドメイン内のLiDAR搭載ロボタクシーについては方向性として良好だが、統計的に決定的な結論を出すにはデータ規模がまだ不十分だ。

指標人間ドライバー(NHTSA基準)Waymo(2023年公開)Tesla FSD(監視あり)
1億マイルあたりの歩行者死亡者数約1.75(NHTSA米国平均、近年)約700万自動運転マイルで重篤な歩行者負傷ゼロ(NHTSA比率と直接比較不可――異なる運営ドメインと分母)自動運転データなし;監視ありでの介入率が利用可能な代理指標
夜間の歩行者リスク夜間リスクは昼間の約3倍(75%夜間死亡統計と一致)LiDAR搭載システム:夜間/昼間のパフォーマンス差はほぼなしカメラのみ:夜間パフォーマンスは実質的に困難(推定);定量化には独立テストが必要
違法横断歩行者人間ドライバーは見える歩行者に反応;反応時間0.7〜1.5秒Waymoは歩行者横断を確率分布としてモデル化;LiDARは同距離のカメラが見る前に横方向の動きを検出FSDニューラルネットは身体姿勢と頭部方向から意図を予測;v13変更履歴で能力確認されているが独立ベンチマークなし
飲酒・薬物影響致命的な事故の約25%が影響を受けたドライバーを含む(NHTSA)影響を受けることはない影響を受けることはない
注意散漫携帯電話による注意散漫は致命的事故の約9%の要因(NHTSA)注意散漫になることはない注意散漫になることはない

比較方法論について: Waymoの700万自動運転マイルとNHTSA全国基準は直接比較できない。Waymoは主にフェニックスとサンフランシスコの都市部で運営している――歩行者密度は米国平均より高い(米国平均には広大な農村走行が含まれる)が、走行速度は低く、衝突時の運動エネルギーも低い。Waymoはまだ農村の高速道路、吹雪、国家フリートが遭遇する多くのエッジケースでは運営していない。公開データの方向性のシグナルはポジティブだが、注意が必要:これは慎重に選択された運営ドメインからの初期データだ。


出典:NHTSA死亡事故分析報告システム(FARS)――nhtsa.gov;Waymo 2023年安全レポート――waymo.com/safety;Tesla車両安全レポート――tesla.com/VehicleSafetyReport;IEEE知能交通システム論文誌――ieeexplore.ieee.org。(推定)と表示されたすべての数値は、公開企業資料、業界報告書、アナリストリサーチから導出された推定値です。独立して検証されておらず、方向性の参考として扱われるべきです。本記事は投資アドバイスを構成するものではありません。


ソース

タグ

チップ