2026-04-25

遥操作数据引擎——为何 ALOHA-2 与 GELLO 是新训练语料库

具身 AI 卡在双手操作数据。$35K 的 ALOHA-2 每天可采集 50 小时。$300 的 GELLO 便宜 100 倍但较慢。本文说明 2026 年运作遥操作示范数据工厂的实务现况。

语言基础模型的瓶颈在开放网络爬虫，操作基础模型的瓶颈则是双手遥操作示范。没有「人手拿杯子」的 Common Crawl，只有你一条一条人工采集出来的轨迹。两个硬件平台已成事实标准。

ALOHA-2——双臂量产规格

Stanford 的 ALOHA-2 是低成本（相对工业机器人）的双手遥操作平台。配置两支由人手操控的引导臂、两支跟随臂（即「机器人」），加上高分辨率腕部相机与俯瞰场景相机。单台零件成本约 $35,000，已成严肃操作研究的入场费。

实际买到的：高质量、低延迟的双手数据，含同步图像、关节角度、夹爪状态。受训操作员每天每台可产出 6-8 小时可用示范（原始采集时间更高，重点是可用率，因为失败尝试需过滤）。

2026 年多数已发表 VLA 论文（RT-3、π0.5、GR00T N2）的微调数据都用 ALOHA-2 或衍生。ALOHA-2 数据格式已成事实交换标准。

GELLO 是个聪明点子：不用昂贵引导臂，改用 3D 打印的跟随臂运动学复本加便宜编码器。你用手移动 GELLO 模型，跟随臂就镜像跟着动。单台零件 $300-500。数据质量低于 ALOHA-2（无力反馈、精细运动精度差），但扩张成本便宜 100 倍。

GELLO 适合的场景：扩张到数十名操作员，或操作任务简单（抓取放置、开抽屉）。不适合：手术级精度任务或接触密集操作（剥皮、切削、组装）。

Open X-Embodiment 2.0 数据集中 GELLO 采集约 30%、ALOHA-2 约 50%、其余 20% 为工业机器人示范。

很少公开讨论的部分：采集已不再是瓶颈——标注才是。一台 ALOHA-2 每天产出约 50 GB 多模态数据。质量审查（过滤失败尝试、切分任务边界、标注子任务）每采集 1 小时需要人工 4-6 小时。

2026 年运作遥操作数据工厂的多数团队有 5-10 倍未标注数据积压。实务解法：

今天起步开操作研究实验室：

一台 ALOHA-2 + 一名全职操作员 + 兼职标注员 ≈ $250K/年。 产出每年 ~1,500 小时可用示范，足以微调基础 VLA 在 2-3 个专门任务上。
5 台 GELLO + 5 名操作员 ≈ $400K/年。 产出每年 ~6,000 小时较广但较杂的数据，适合贡献基础模型预训练。
直接买既有数据集（Open X-Embodiment 2.0、RH20T、BridgeData V2） 是理性起点。下载 $0，但大家都用同一份数据训，无竞争护城河。