2026-06-18 — views

自駕車行人與自行車偵測——最難的感知問題與安全數據

行人與自行車是自駕車感測器最難應對的目標——體積小、速度快、難以預測。本文解析偵測挑戰與安全數據。

實體 AI 基準系列第 59 篇——最難的感知問題

在自駕車必須偵測的所有物件中，行人與自行車騎士是最關鍵、也是技術上最困難的。他們是出事時最可能罹難的道路使用者，也是感測器最難處理的目標。汽車是一個大型、剛性、高雷達反射截面的方塊，沿著可預測的軌跡行駛。行人卻是體積小、肢體靈活、低雷達反射截面的物體，能夠瞬間改變方向、突然從死角出現，外觀變化幾乎無窮無盡。自行車騎士速度更快、機動性更強，行駛空間介於車輛與行人之間，道路基礎設施往往沒有明確劃分。

本文解析具體的偵測挑戰、各種感測器的貢獻、當前量產系統的差異，以及現有安全數據所呈現的面貌。

第一節——為何行人與自行車騎士特別難以偵測

難度不來自單一因素，而是多重挑戰的疊加。以下每項挑戰都會加劇其他挑戰。

挑戰	說明
體積小	行人正面截面積約 0.5 平方公尺，汽車則約 6 平方公尺。雷達反射截面更小——行人回傳的雷達訊號微弱，容易淹沒在其他小物體的雜訊中。
動作難以預測	行人可以瞬間改變方向，沒有任何訊號；兒童尤其容易突然橫向移動。汽車軌跡可在 2–3 秒內合理預測，行人則不然。
遮蔽與突然出現	行人從停放車輛之間、建築物轉角、公車門口突然進入感測器視野，毫無預警時間。車輛則從固定車道接近，完全不同。
肢體關節活動	手臂與腿部獨立於軀幹運動，偵測行人不是找一個剛性邊界框，而是辨識一個各肢體有獨立運動向量的可變形物體，需要姿態估計才能理解步態與意圖。
外觀多樣	行人可能穿著亮黃色夾克或深色大衣、撐傘、推嬰兒車、坐輪椅或穿著戲服。外觀多樣性遠超車輛。
低光環境脆弱性	美國逾 75% 的行人死亡事故發生在夜間（NHTSA 數據）。人類駕駛在夜間能力下降；純相機 AV 系統面臨同樣的退化，而且沒有車頭燈照明作為參考。
群體動態	路口聚集的人群、多名行人相互遮擋——多主體群體行為預測遠比追蹤單一物體複雜。
邊緣案例	輪椅使用者、因傷殘步態異常者、指揮交通的警察（手勢非標準）、路旁遊樂設施上的兒童、活動中的戲服角色——外觀與行為的長尾非常長。

自行車騎士在此基礎上增加了速度的複雜性。騎士行駛速度約 25–40 公里/小時，比行人快但與行人共享路口空間。手勢細小且短暫，車道位置往往模糊，和行人一樣，騎士的配置也千變萬化：馱包、拖車、安全帽、無安全帽、成群或獨行。

第二節——各感測器如何應對行人

沒有任何單一感測器能解決行人偵測問題。實務上的問題是，哪種組合能在各種失效模式下提供最佳覆蓋。

感測器	行人偵測優勢	主要限制
相機（可見光）	日間表現出色：顏色、紋理與肢體姿態均可捕捉；深度學習偵測器（YOLO 系列、DETR 架構）在標準光線條件下精度高。影片序列（時間序列）提供單一幀所缺少的動作線索。	夜間：照明不足時性能大幅下降。大雨：對比度降低，鏡頭水珠影響影像品質。遮蔽：無法穿透固體物體，需靠推論偵測局部肢體。
LiDAR	產生 3D 點雲，基本不受光線影響。能在停放車輛後方偵測行人腿部，在完整身體可見前就發出警示——遮蔽場景的關鍵優勢。3D 邊界框使距離估計不依賴外觀。	極低反射率服裝（深色冬季大衣）降低回傳強度。大雨會衰減雷射光束。遠距小目標回傳點數少，降低置信度。
毫米波雷達	可靠偵測移動與徑向速度（都卜勒效應），在雨霧中表現穩健。	角解析度低——無法依形狀區分行人、小動物、垃圾桶或郵筒。僅提供速度與大致距離，無形狀或姿態資訊。路旁基礎設施誤報率高。
熱紅外線（IR）	直接偵測體熱，在完全黑暗環境中無需任何環境光或人工照明即可運作。	感測器昂貴，量產車中供應有限。解析度低於可見光相機。不提供形狀或姿態細節，分類更困難。路面熱輻射與車輛引擎等熱源會製造雜訊。
感測器融合	LiDAR 提供 3D 位置與形狀；相機提供外觀分類與姿態；雷達提供速度與惡劣天氣下的穩健性。三者結合，系統能以比單一感測器更高的置信度偵測、分類、追蹤並預測行人意圖。	融合複雜性引入自身的失效模式。若融合演算法因校準漂移而錯誤合併不同感測器的偵測結果，可能產生比單一感測器更難察覺的漏報。

第三節——Tesla 純相機行人偵測

Tesla 的 FSD 系統建立在「相機優先」的理念上，當前量產 FSD 車輛不配備 LiDAR 或雷達（雷達自 2021 年起從多數車型移除）。行人偵測完全依賴相機影像的神經網路推論。

面向	說明
偵測架構	FSD 採用端到端神經網路方法（v12 架構），以龐大的車隊採集資料集訓練。系統處理影片序列（非單一幀），啟用遮蔽處理的時間情境。
規模優勢	Tesla 車隊在不同地理位置、天氣條件與時段收集了海量多樣的行人相遇數據，訓練資料集規模是應對外觀多樣挑戰的真實競爭優勢。
日間表現	日間標準城市行人偵測（斑馬線上的行人、人行道上的行人、自行車道上的騎士）表現良好，可區分行人與電線桿、狗、垃圾桶等相似大小的物體。
夜間弱點	沒有 LiDAR，系統完全依賴車頭燈照射到的範圍與環境光。穿深色衣物的行人在燈光不足的道路上在有效剎車距離內幾乎沒有車頭燈照射。這是純相機系統在行人安全上最顯著的弱點。
遮蔽時間推論	若行人兩秒前可見但現已被遮蔽，模型會維持推論軌跡，估計行人可能的位置。這是有意義的能力，但是推論而非測量。
意圖預測	FSD v13 改善了對行人意圖訊號的解讀——頭部轉向、身體向路面傾斜、在斑馬線前舉手。這些是真實的行為線索，人類駕駛也會使用，但尚未有獨立驗證（估計）。
幽靈剎車歷史	早期 FSD 版本因將陰影、塑膠袋、灌木誤識為行人而出現較高的幽靈剎車頻率。FSD v12 和 v13 顯著改善，反映車隊規模訓練數據在減少偽陽性方面的價值。
無人駕駛安全數據	截至 2026 年中，Tesla FSD 在人類監督下運作。尚無等同於 Waymo 已發布機器人計程車數據規模的無人駕駛行人互動安全數據庫。

第四節——Waymo 多感測器行人偵測

Waymo 的車輛配備了一套感測器，確保沒有任何單一感測器故障會造成偵測盲點。對於行人，LiDAR 是主要偵測感測器，相機提供確認與分類細節。

面向	說明
LiDAR 主要角色	3D 點雲偵測行人形狀，基本不受光線影響——夜間、下雨、無車頭燈照射均能偵測。在完全黑暗中 50 公尺外行走的行人，LiDAR 分類器能辨識其人形點雲。夜間與日間性能基本相同。
相機確認	相機為 LiDAR 偵測到的物體增加顏色、紋理、服裝細節與肢體姿態估計，實現更精細的分類（成人 vs 兒童、載貨自行車 vs 一般自行車）與姿態意圖推論。
雷達速度層	雷達確認偵測到的物體正在移動並提供速度向量，有助於區分站在人行道上靜止的行人與即將踏入馬路的行人。
遮蔽優勢	LiDAR 能在停放車輛後方偵測到行人腿部，在完整身體可見前就提供警示。在 30 公尺距離，這比純相機系統提供約 0.5–1.0 秒額外預警，城市行駛速度下這個差距非常關鍵。
黑暗中的偵測距離	LiDAR 即使在完全黑暗中也能在 50–80 公尺外偵測行人（估計）。依賴車頭燈照射的相機系統，在相近速度下大約只能看到 40 公尺——在燈光不足的路口，這個差距至關重要。
已發布安全數據	Waymo 2023 年安全報告涵蓋約 700 萬英里無人駕駛里程，報告歸因於 Waymo 系統故障的嚴重行人傷害為零（依已發布數據）。這是方向性發現，而非明確的統計比較——運營環境（主要為鳳凰城與舊金山城市區域）和「嚴重傷害」的定義均與 NHTSA 基準不同。
自行車騎士特定偵測	騎士速度比行人快（25–40 公里/小時），使軌跡預測更加時間敏感。LiDAR 追蹤自行車架與騎士的組合物體，相機分類手勢與身體位置，雷達提供速度確認。多感測器組合比純相機更早實現可信分類（估計）。

第五節——安全比較：自駕車 vs 人類駕駛

AV 投資與法規的核心問題，是這項技術是否能對最脆弱的道路使用者展現出比人類基準更安全的表現。截至 2026 年中，誠實的答案是：在其運營域內的 LiDAR 裝備機器人計程車，方向上確實表現更好，但數據規模尚不足以做出統計上明確的結論。

指標	人類駕駛（NHTSA 基準）	Waymo（2023 年已發布）	Tesla FSD（有人監督）
每 1 億英里行人死亡數	約 1.75（NHTSA 美國平均，近年）	約 700 萬無人駕駛英里中嚴重行人傷害為零（與 NHTSA 比率無法直接比較——運營域與分母不同）	無無人駕駛數據；有人監督下的脫離率是現有代理指標
夜間行人風險	夜間風險約為日間的 3 倍（與 75% 夜間死亡統計一致）	LiDAR 裝備系統：夜間/日間性能差異不顯著	純相機：夜間性能實質較難（估計）；量化需要獨立測試
闖紅燈行人	人類駕駛對可見行人作出反應，反應時間 0.7–1.5 秒	Waymo 將行人穿越建模為機率分佈；LiDAR 在同距離相機尚未看到前就偵測橫向移動	FSD 神經網路從身體姿態與頭部方向預測意圖；v13 更新日誌確認此能力但未獨立基準測試
意識損傷	約 25% 的致命事故涉及意識損傷（NHTSA）	永不意識損傷	永不意識損傷
分心駕駛	手機分心是約 9% 致命事故的因素（NHTSA）	永不分心	永不分心

關於比較方法論： Waymo 700 萬無人駕駛英里與 NHTSA 全國基準無法直接比較。Waymo 主要在鳳凰城與舊金山城市區域運營——行人密度高於美國平均（美國平均包含大量農村里程），但行駛速度較低，碰撞動能也較低。Waymo 尚未在農村高速公路、暴風雪或全國車隊面臨的許多邊緣情況下運營。已發布數據的方向性訊號是正面的，但警示適用：這是來自精心選擇的運營域的早期數據。

資料來源：NHTSA 致命事故分析報告系統（FARS）——nhtsa.gov；Waymo 2023 年安全報告——waymo.com/safety；Tesla 車輛安全報告——tesla.com/VehicleSafetyReport；IEEE 智能交通系統期刊——ieeexplore.ieee.org。所有標記（估計）的數據均源自公司公開資料、行業報導與分析師研究，未經獨立驗證，應視為方向性參考。本文不構成投資建議。