2026-06-18 — views
自动驾驶行人与自行车检测——最难的感知问题与安全数据
行人与自行车是自动驾驶传感器最难应对的目标——体积小、速度快、难以预测。本文解析检测挑战与安全数据。
实体 AI 基准系列第 59 篇——最难的感知问题
在自动驾驶汽车必须检测的所有目标中,行人与自行车骑手是最关键、也是技术上最困难的。他们是出事时最可能罹难的道路使用者,也是传感器最难处理的目标。汽车是一个大型、刚性、高雷达反射截面的方块,沿着可预测的轨迹行驶。行人却是体积小、肢体灵活、低雷达反射截面的物体,能够瞬间改变方向、突然从死角出现,外观变化几乎无穷无尽。自行车骑手速度更快、机动性更强,行驶空间介于车辆与行人之间,道路基础设施往往没有明确划分。
本文解析具体的检测挑战、各种传感器的贡献、当前量产系统的差异,以及现有安全数据所呈现的面貌。
第一节——为何行人与自行车骑手特别难以检测
难度不来自单一因素,而是多重挑战的叠加。以下每项挑战都会加剧其他挑战。
| 挑战 | 说明 |
|---|---|
| 体积小 | 行人正面截面积约 0.5 平方米,汽车则约 6 平方米。雷达反射截面更小——行人回传的雷达信号微弱,容易淹没在其他小物体的噪声中。 |
| 动作难以预测 | 行人可以瞬间改变方向,没有任何信号;儿童尤其容易突然横向移动。汽车轨迹可在 2–3 秒内合理预测,行人则不然。 |
| 遮挡与突然出现 | 行人从停放车辆之间、建筑物拐角、公交车门口突然进入传感器视野,毫无预警时间。车辆则从固定车道接近,完全不同。 |
| 肢体关节活动 | 手臂与腿部独立于躯干运动,检测行人不是找一个刚性边界框,而是识别一个各肢体有独立运动向量的可变形物体,需要姿态估计才能理解步态与意图。 |
| 外观多样 | 行人可能穿着亮黄色夹克或深色大衣、撑伞、推婴儿车、坐轮椅或穿着戏服。外观多样性远超车辆。 |
| 低光环境脆弱性 | 美国逾 75% 的行人死亡事故发生在夜间(NHTSA 数据)。人类驾驶在夜间能力下降;纯摄像头 AV 系统面临同样的退化,而且没有车头灯照明作为参考。 |
| 群体动态 | 路口聚集的人群、多名行人相互遮挡——多主体群体行为预测远比追踪单一物体复杂。 |
| 边缘案例 | 轮椅使用者、因伤残步态异常者、指挥交通的警察(手势非标准)、路旁游乐设施上的儿童、活动中的戏服角色——外观与行为的长尾非常长。 |
自行车骑手在此基础上增加了速度的复杂性。骑手行驶速度约 25–40 公里/小时,比行人快但与行人共享路口空间。手势细小且短暂,车道位置往往模糊,和行人一样,骑手的配置也千变万化:驮包、拖车、安全帽、无安全帽、成群或独行。
第二节——各传感器如何应对行人
没有任何单一传感器能解决行人检测问题。实务上的问题是,哪种组合能在各种失效模式下提供最佳覆盖。
| 传感器 | 行人检测优势 | 主要限制 |
|---|---|---|
| 摄像头(可见光) | 日间表现出色:颜色、纹理与肢体姿态均可捕捉;深度学习检测器(YOLO 系列、DETR 架构)在标准光线条件下精度高。视频序列(时间序列)提供单一帧所缺少的动作线索。 | 夜间:照明不足时性能大幅下降。大雨:对比度降低,镜头水珠影响图像质量。遮挡:无法穿透固体物体,需靠推断检测局部肢体。 |
| 激光雷达(LiDAR) | 产生 3D 点云,基本不受光线影响。能在停放车辆后方检测行人腿部,在完整身体可见前就发出警示——遮挡场景的关键优势。3D 边界框使距离估计不依赖外观。 | 极低反射率服装(深色冬季大衣)降低回传强度。大雨会衰减激光光束。远距小目标回传点数少,降低置信度。 |
| 毫米波雷达 | 可靠检测移动与径向速度(多普勒效应),在雨雾中表现稳健。 | 角分辨率低——无法依形状区分行人、小动物、垃圾桶或邮筒。仅提供速度与大致距离,无形状或姿态信息。路旁基础设施误报率高。 |
| 热红外线(IR) | 直接检测体热,在完全黑暗环境中无需任何环境光或人工照明即可运作。 | 传感器昂贵,量产车中供应有限。分辨率低于可见光摄像头。不提供形状或姿态细节,分类更困难。路面热辐射与车辆引擎等热源会制造噪声。 |
| 传感器融合 | LiDAR 提供 3D 位置与形状;摄像头提供外观分类与姿态;雷达提供速度与恶劣天气下的稳健性。三者结合,系统能以比单一传感器更高的置信度检测、分类、追踪并预测行人意图。 | 融合复杂性引入自身的失效模式。若融合算法因标定漂移而错误合并不同传感器的检测结果,可能产生比单一传感器更难察觉的漏报。 |
第三节——Tesla 纯摄像头行人检测
Tesla 的 FSD 系统建立在”摄像头优先”的理念上,当前量产 FSD 车辆不配备 LiDAR 或雷达(雷达自 2021 年起从多数车型移除)。行人检测完全依赖摄像头图像的神经网络推断。
| 面向 | 说明 |
|---|---|
| 检测架构 | FSD 采用端到端神经网络方法(v12 架构),以庞大的车队采集数据集训练。系统处理视频序列(非单一帧),启用遮挡处理的时间情境。 |
| 规模优势 | Tesla 车队在不同地理位置、天气条件与时段收集了海量多样的行人相遇数据,训练数据集规模是应对外观多样挑战的真实竞争优势。 |
| 日间表现 | 日间标准城市行人检测(斑马线上的行人、人行道上的行人、自行车道上的骑手)表现良好,可区分行人与电线杆、狗、垃圾桶等相似大小的物体。 |
| 夜间弱点 | 没有 LiDAR,系统完全依赖车头灯照射到的范围与环境光。穿深色衣物的行人在灯光不足的道路上在有效刹车距离内几乎没有车头灯照射。这是纯摄像头系统在行人安全上最显著的弱点。 |
| 遮挡时间推断 | 若行人两秒前可见但现已被遮挡,模型会维持推断轨迹,估计行人可能的位置。这是有意义的能力,但是推断而非测量。 |
| 意图预测 | FSD v13 改善了对行人意图信号的解读——头部转向、身体向路面倾斜、在斑马线前举手。这些是真实的行为线索,人类驾驶也会使用,但尚未有独立验证(估计)。 |
| 幻影刹车历史 | 早期 FSD 版本因将阴影、塑料袋、灌木误识为行人而出现较高的幻影刹车频率。FSD v12 和 v13 显著改善,反映车队规模训练数据在减少假阳性方面的价值。 |
| 无人驾驶安全数据 | 截至 2026 年中,Tesla FSD 在人类监督下运作。尚无等同于 Waymo 已发布机器人出租车数据规模的无人驾驶行人互动安全数据库。 |
第四节——Waymo 多传感器行人检测
Waymo 的车辆配备了一套传感器,确保没有任何单一传感器故障会造成检测盲点。对于行人,LiDAR 是主要检测传感器,摄像头提供确认与分类细节。
| 面向 | 说明 |
|---|---|
| LiDAR 主要角色 | 3D 点云检测行人形状,基本不受光线影响——夜间、下雨、无车头灯照射均能检测。在完全黑暗中 50 米外行走的行人,LiDAR 分类器能识别其人形点云。夜间与日间性能基本相同。 |
| 摄像头确认 | 摄像头为 LiDAR 检测到的物体增加颜色、纹理、服装细节与肢体姿态估计,实现更精细的分类(成人 vs 儿童、载货自行车 vs 一般自行车)与姿态意图推断。 |
| 雷达速度层 | 雷达确认检测到的物体正在移动并提供速度向量,有助于区分站在人行道上静止的行人与即将踏入马路的行人。 |
| 遮挡优势 | LiDAR 能在停放车辆后方检测到行人腿部,在完整身体可见前就提供警示。在 30 米距离,这比纯摄像头系统提供约 0.5–1.0 秒额外预警,城市行驶速度下这个差距非常关键。 |
| 黑暗中的检测距离 | LiDAR 即使在完全黑暗中也能在 50–80 米外检测行人(估计)。依赖车头灯照射的摄像头系统,在相近速度下大约只能看到 40 米——在灯光不足的路口,这个差距至关重要。 |
| 已发布安全数据 | Waymo 2023 年安全报告涵盖约 700 万英里无人驾驶里程,报告归因于 Waymo 系统故障的严重行人伤害为零(依已发布数据)。这是方向性发现,而非明确的统计比较——运营环境(主要为凤凰城与旧金山城市区域)和”严重伤害”的定义均与 NHTSA 基准不同。 |
| 自行车骑手特定检测 | 骑手速度比行人快(25–40 公里/小时),使轨迹预测更加时间敏感。LiDAR 追踪自行车架与骑手的组合物体,摄像头分类手势与身体位置,雷达提供速度确认。多传感器组合比纯摄像头更早实现可信分类(估计)。 |
第五节——安全比较:自动驾驶 vs 人类驾驶
AV 投资与法规的核心问题,是这项技术是否能对最脆弱的道路使用者展现出比人类基准更安全的表现。截至 2026 年中,诚实的答案是:在其运营域内的 LiDAR 装备机器人出租车,方向上确实表现更好,但数据规模尚不足以做出统计上明确的结论。
| 指标 | 人类驾驶(NHTSA 基准) | Waymo(2023 年已发布) | Tesla FSD(有人监督) |
|---|---|---|---|
| 每 1 亿英里行人死亡数 | 约 1.75(NHTSA 美国平均,近年) | 约 700 万无人驾驶英里中严重行人伤害为零(与 NHTSA 比率无法直接比较——运营域与分母不同) | 无无人驾驶数据;有人监督下的脱离率是现有代理指标 |
| 夜间行人风险 | 夜间风险约为日间的 3 倍(与 75% 夜间死亡统计一致) | LiDAR 装备系统:夜间/日间性能差异不显著 | 纯摄像头:夜间性能实质较难(估计);量化需要独立测试 |
| 闯红灯行人 | 人类驾驶对可见行人作出反应,反应时间 0.7–1.5 秒 | Waymo 将行人穿越建模为概率分布;LiDAR 在同距离摄像头尚未看到前就检测横向移动 | FSD 神经网络从身体姿态与头部方向预测意图;v13 更新日志确认此能力但未独立基准测试 |
| 意识损伤 | 约 25% 的致命事故涉及意识损伤(NHTSA) | 永不意识损伤 | 永不意识损伤 |
| 分心驾驶 | 手机分心是约 9% 致命事故的因素(NHTSA) | 永不分心 | 永不分心 |
关于比较方法论: Waymo 700 万无人驾驶英里与 NHTSA 全国基准无法直接比较。Waymo 主要在凤凰城与旧金山城市区域运营——行人密度高于美国平均,但行驶速度较低,碰撞动能也较低。Waymo 尚未在农村高速公路、暴风雪或全国车队面临的许多边缘情况下运营。已发布数据的方向性信号是正面的,但警示适用:这是来自精心选择的运营域的早期数据。
资料来源:NHTSA 致命事故分析报告系统(FARS)——nhtsa.gov;Waymo 2023 年安全报告——waymo.com/safety;Tesla 车辆安全报告——tesla.com/VehicleSafetyReport;IEEE 智能交通系统期刊——ieeexplore.ieee.org。所有标记(估计)的数据均源自公司公开资料、行业报道与分析师研究,未经独立验证,应视为方向性参考。本文不构成投资建议。
来源
- NHTSA 行人交通安全数据 2022 — NHTSA ↗
- Waymo 2023 安全报告 — Waymo ↗
- Tesla 车辆安全报告 — Tesla ↗
- 自动驾驶行人检测研究 — IEEE 智能交通系统期刊 ↗