Builder Daily

2026-04-25

遥操作数据引擎——为何 ALOHA-2 与 GELLO 是新训练语料库

具身 AI 卡在双手操作数据。$35K 的 ALOHA-2 每天可采集 50 小时。$300 的 GELLO 便宜 100 倍但较慢。本文说明 2026 年运作遥操作示范数据工厂的实务现况。

语言基础模型的瓶颈在开放网络爬虫,操作基础模型的瓶颈则是双手遥操作示范。没有「人手拿杯子」的 Common Crawl,只有你一条一条人工采集出来的轨迹。两个硬件平台已成事实标准。

ALOHA-2——双臂量产规格

Stanford 的 ALOHA-2 是低成本(相对工业机器人)的双手遥操作平台。配置两支由人手操控的引导臂、两支跟随臂(即「机器人」),加上高分辨率腕部相机与俯瞰场景相机。单台零件成本约 $35,000,已成严肃操作研究的入场费。

实际买到的:高质量、低延迟的双手数据,含同步图像、关节角度、夹爪状态。受训操作员每天每台可产出 6-8 小时可用示范(原始采集时间更高,重点是可用率,因为失败尝试需过滤)。

2026 年多数已发表 VLA 论文(RT-3、π0.5、GR00T N2)的微调数据都用 ALOHA-2 或衍生。ALOHA-2 数据格式已成事实交换标准。

GELLO——$300 的替代方案

GELLO 是个聪明点子:不用昂贵引导臂,改用 3D 打印的跟随臂运动学复本加便宜编码器。你用手移动 GELLO 模型,跟随臂就镜像跟着动。单台零件 $300-500。数据质量低于 ALOHA-2(无力反馈、精细运动精度差),但扩张成本便宜 100 倍。

GELLO 适合的场景:扩张到数十名操作员,或操作任务简单(抓取放置、开抽屉)。不适合:手术级精度任务或接触密集操作(剥皮、切削、组装)。

Open X-Embodiment 2.0 数据集中 GELLO 采集约 30%、ALOHA-2 约 50%、其余 20% 为工业机器人示范。

标注危机

很少公开讨论的部分:采集已不再是瓶颈——标注才是。一台 ALOHA-2 每天产出约 50 GB 多模态数据。质量审查(过滤失败尝试、切分任务边界、标注子任务)每采集 1 小时需要人工 4-6 小时。

2026 年运作遥操作数据工厂的多数团队有 5-10 倍未标注数据积压。实务解法:

2026 年的成本经济学

今天起步开操作研究实验室:

实战笔记

Q3 观察清单


Sources

请喝咖啡