2026-06-18 — views

实体 AI vs 传统 AI — 为什么建造机器人比建造聊天机器人更难

Moravec 悖论、模拟到现实的落差，以及为什么 LLM 的扩展定律无法直接套用于机器人与自动驾驶车辆。

实体 AI 基准系列第 38 篇 — 根本难度差距

ChatGPT 在两个月内达到一亿用户。Waymo 在耗费十五年与数十亿美元之后，才在美国几个城市展开商业运营。两者都是 AI。为什么差距如此巨大？

答案不在于资金、人才或企业意志力。而是问题本身的物理性质存在根本差异。实体 AI——自动驾驶车辆、人形机器人、送货无人机——在现实世界中运行，错误有物理后果，训练数据收集成本高昂，而模拟器在最关键的时刻恰恰失效。本文解释为什么建造机器人在结构上比建造聊天机器人更难，以及为什么让 GPT-4 成为可能的扩展定律无法直接套用于必须接触世界的机器。

第 1 节 — 核心难度比较

下表从关键维度映射传统 AI（大型语言模型、图像生成器）与实体 AI（自动驾驶车辆、人形机器人）在结构上的差异。这些不是更快芯片能弥合的工程缺口——而是问题本质的差异。

维度	传统 AI（LLM）	实体 AI（自驾车、机器人）
输入域	文字 / 词元——离散、无损	传感器数据——连续、有噪声、有损
输出域	文字 / 词元	物理动作——不可逆、必须安全
错误后果	错误答案（可更正）	物理伤害（可能不可逆）
训练数据	网络文字（实际上无限）	真实世界经验（昂贵、收集缓慢）
模拟可行性	高——文字模拟器效果良好	低——物理模拟器在接触与材料变形上失效
扩展定律行为	强——更多数据 + 算力 → 可靠地更好	弱——模拟到现实的落差限制了收益
泛化能力	跨域强	弱——在一个环境训练的模型在另一个环境失效
边缘案例尾部	长但有界（语言有有限文法）	实际上无限——每个物理环境都是独特的
安全要求	低——错误输出令人恼火	极高——错误输出可能造成伤亡
部署速度	数小时（软件更新）	数月至数年（验证、监管审批）

最关键的行是错误后果。幻觉出错误日期的 LLM 可以更正。将行人误分类的自动驾驶车辆则不能。这一个不对称性驱动了所有下游的难度：验证标准、监管负担、安全裕度，以及从开发到部署的时间轴。

第 2 节 — Moravec 悖论

1988 年，机器人学家 Hans Moravec 提出了 AI 研究史上最重要的观察之一：

「让电脑在智力测验或西洋跳棋上表现出成人水准相对容易，但让它们具备一岁幼儿的感知与行动能力却极度困难，甚至不可能。」

这种对人类直觉的颠覆——人类觉得难的事对 AI 容易，人类觉得简单的事对 AI 困难——解释了整个领域在此后四十年的轨迹。

对人类难、对 AI 容易：

西洋棋、围棋、数学证明（1997–2017）
阅读法律文件、摘要研究论文（2020–2022）
写诗、生成逼真图像（2022–2023）
程序撰写、多步骤推理、医疗诊断辅助（2024–2026）

对人类容易、2026 年对 AI 仍困难：

在不平坦地面行走而不跌倒
拿起一颗葡萄而不压碎
在大雨中在陌生道路上驾驶
在杂乱场景中识别从未见过的物体
在玻璃杯落地前接住它

为什么存在这种颠覆？人类「简单」的物理技能是大约 5 亿年生物演化的产物。它们不是以学习的规则编码，而是编码在硬件中：神经元的架构、肌肉和肌腱的机械特性、前庭系统、本体感觉（身体的持续自我模型），以及视觉皮层对三维场景理解的深度专业化。建立在矩阵乘法上的 AI 系统必须从零开始学习演化在地质时间尺度上优化的东西。没有捷径。

第 3 节 — 模拟到现实的落差

实体 AI 训练中最重要的技术挑战是模拟到现实的落差：在模拟中训练的行为无法可靠地转移到现实世界。

模拟能做好的事：

模拟对实体 AI 开发确实非常强大。现代物理模拟器能渲染逼真的相机图像、模拟刚体动力学、在受控环境中以大规模训练代理行走或驾驶，并廉价地执行数千个并行训练实例。Tesla、Waymo、Boston Dynamics 以及每家认真的实体 AI 公司都大量使用模拟。

模拟无法做到的事：

高精度接触物理。 当机器人抓取物体时，接触点的变形、摩擦和滑动取决于材料特性——橡胶对玻璃对湿陶瓷表面——模拟器对此近似得很差。模拟摩擦与真实摩擦之间的差距，在可靠抓取所需的精度水平上，三十年来一直是机器人操作的核心开放问题。

长尾环境变异。 现实世界有实际上无限的变异，从未出现在模拟中：破碎的人行道、来自不寻常角度的意外阴影、非标准行人行为、遗留在车道中的儿童自行车、飘过传感器的落叶、被树枝遮挡的路标、隔夜重新规划交通的施工区。

传感器噪声模型。 真实的相机和 LiDAR 噪声模式复杂、依赖环境，并随温度、湿度和传感器老化而变化。模拟器使用简化的近似。

分布偏移。 在模拟中训练的策略是在模拟器生成的状态和转换分布上训练的。现实世界生成不同的分布。即使两个分布平均看起来相似，尾部也不同——而实体 AI 在尾部失效。

模拟到现实的落差不是更好的工程能修复的特定模拟器中的错误。它是任何物理世界模型与物理世界本身之间关系的结构性属性。模型永远是简化，简化永远在某处失效。

第 4 节 — 为什么 LLM 扩展定律不能完全套用

现代 AI 最重要的实证发现是大型语言模型的「Chinchilla 扩展定律」，由 DeepMind 于 2022 年正式化：LLM 性能可预测地随训练数据量与算力的乘积扩展。更多词元加上更多参数可靠地产生更好的语言模型。这种可预测的扩展使 GPT-3、GPT-4、Claude 和 Gemini 在其实现的时间轴上成为可能。

实体 AI 有一个更弱的版本，带有四个具体限制：

1. 数据瓶颈。 你无法下载物理世界。自动驾驶车辆的每一英里真实世界训练都需要花钱驾驶、消耗燃料，并累积配备传感器的测试车辆的磨损。物理训练数据在物理和资本方面受到速率限制，而文字数据则不然。

2. 模拟数据上限。 更多模拟训练数据有所帮助——直到达到模拟到现实的墙。当策略开始过拟合模拟器的特定物理近似时，边际价值递减。在某个阈值之后，额外的模拟算力产生的模型在模拟中导航更好，但在现实世界导航没有实质改善。

3. 安全验证不随算力扩展。 在事实问题上有 0.1% 错误率的 LLM 是有用且可部署的。在安全关键决策上有 0.1% 错误率的自动驾驶车辆是任何监管机构都不允许在公共道路上行驶的公共安全危机。实体 AI 的安全验证负担不会随着算力增加而降低。

4. 物理环境的长尾真的很长。 语言有有限的词汇和文法。物理环境的组合空间实际上是无限的：天气条件、路面、交通密度、行人行为的每种组合都代表一个可能不出现在任何训练分布中的独特场景。

尚未有人取得的突破： 给予机器人与语言模型从网络规模文字预训练获得的相同模拟到现实转移优势的通用「物理基础模型」。几个研究计划正朝这个方向努力，但没有一个展示出能打破模拟到现实上限的转移特性。

第 5 节 — 应对同一个难题的两种方法：Tesla 对 Waymo

方法	Tesla FSD	Waymo
训练数据策略	消费者规模的真实世界监督英里	高品质无人驾驶商业英里
模拟角色	大量用于边缘案例和影子模式	大量使用加上专有传感器模拟套件
模型架构	端到端神经网络	模块化——感知、预测和规划分离
泛化赌注	规模产生突现泛化，如 LLM	结构化推理加传感器融合
安全理念	在数百万英里中统计展示的安全性	形式验证加保守安全裕度
核心赌注	端到端加大规模对驾驶有效	模块化加形式方法在安全尾部胜出

Tesla 的赌注本质上是将 LLM 假设应用于实体 AI：如果你从足够大的车队收集足够多的真实世界数据，并在其上训练端到端模型，突现泛化就会随之而来。

Waymo 的赌注是驾驶的物理和安全约束对于黑盒神经网络来说太结构化，无法在尾部可靠处理。

未解决的问题： 两种方法都没有展示完全无人驾驶在无限制城市环境中所需的每十亿英里一次的安全水平。Tesla FSD 在监管分类中仍然是需要驾驶员监督的二级驾驶辅助系统。Waymo 在特定天气条件下的地理围栏城市区域中商业无人驾驶。

第 6 节 — 关于本系列

这是实体 AI 基准系列的第 38 篇文章。本文提供了基础技术框架：Moravec 悖论、模拟到现实的落差、LLM 扩展定律应用于实体 AI 的限制，以及 Tesla 端到端赌注与 Waymo 模块化方法之间的结构比较。

提示： 本文中的技术评估、能力时间轴和竞争比较反映截至 2026 年中期的公开信息和行业分析。预测是估计，不是保证。本文中的任何内容都不构成投资建议。在做出任何投资决定之前，请进行自己的尽职调查并咨询持牌财务顾问。