2026-04-25
遥操作数据引擎——为何 ALOHA-2 与 GELLO 是新训练语料库
具身 AI 卡在双手操作数据。$35K 的 ALOHA-2 每天可采集 50 小时。$300 的 GELLO 便宜 100 倍但较慢。本文说明 2026 年运作遥操作示范数据工厂的实务现况。
语言基础模型的瓶颈在开放网络爬虫,操作基础模型的瓶颈则是双手遥操作示范。没有「人手拿杯子」的 Common Crawl,只有你一条一条人工采集出来的轨迹。两个硬件平台已成事实标准。
ALOHA-2——双臂量产规格
Stanford 的 ALOHA-2 是低成本(相对工业机器人)的双手遥操作平台。配置两支由人手操控的引导臂、两支跟随臂(即「机器人」),加上高分辨率腕部相机与俯瞰场景相机。单台零件成本约 $35,000,已成严肃操作研究的入场费。
实际买到的:高质量、低延迟的双手数据,含同步图像、关节角度、夹爪状态。受训操作员每天每台可产出 6-8 小时可用示范(原始采集时间更高,重点是可用率,因为失败尝试需过滤)。
2026 年多数已发表 VLA 论文(RT-3、π0.5、GR00T N2)的微调数据都用 ALOHA-2 或衍生。ALOHA-2 数据格式已成事实交换标准。
GELLO——$300 的替代方案
GELLO 是个聪明点子:不用昂贵引导臂,改用 3D 打印的跟随臂运动学复本加便宜编码器。你用手移动 GELLO 模型,跟随臂就镜像跟着动。单台零件 $300-500。数据质量低于 ALOHA-2(无力反馈、精细运动精度差),但扩张成本便宜 100 倍。
GELLO 适合的场景:扩张到数十名操作员,或操作任务简单(抓取放置、开抽屉)。不适合:手术级精度任务或接触密集操作(剥皮、切削、组装)。
Open X-Embodiment 2.0 数据集中 GELLO 采集约 30%、ALOHA-2 约 50%、其余 20% 为工业机器人示范。
标注危机
很少公开讨论的部分:采集已不再是瓶颈——标注才是。一台 ALOHA-2 每天产出约 50 GB 多模态数据。质量审查(过滤失败尝试、切分任务边界、标注子任务)每采集 1 小时需要人工 4-6 小时。
2026 年运作遥操作数据工厂的多数团队有 5-10 倍未标注数据积压。实务解法:
- VLM 当审查者:GPT-5 或 Claude Sonnet 4 审视频片段质量。减少人工审查 60-70%,但需要谨慎 prompt 工程与抽查。
- 自监督标注:用潜在表征(V-JEPA-2 特征)对轨迹分群,标一群、传播。重复任务有效,多样数据失效。
- 直接少标:跳过子任务标注,端到端训原始轨迹。VLA 够大时可行,失去可解释性。
2026 年的成本经济学
今天起步开操作研究实验室:
- 一台 ALOHA-2 + 一名全职操作员 + 兼职标注员 ≈ $250K/年。 产出每年 ~1,500 小时可用示范,足以微调基础 VLA 在 2-3 个专门任务上。
- 5 台 GELLO + 5 名操作员 ≈ $400K/年。 产出每年 ~6,000 小时较广但较杂的数据,适合贡献基础模型预训练。
- 直接买既有数据集(Open X-Embodiment 2.0、RH20T、BridgeData V2) 是理性起点。下载 $0,但大家都用同一份数据训,无竞争护城河。
实战笔记
- 操作任务涉及接触力时不要从 GELLO 起步。没力反馈的痛要 200 小时后才会浮现。
- 操作员选拔比公开承认的更重要。熟手每小时产出可用数据是新手的 3-5 倍。薪资要照这标准。
- 相机摆位是 ALOHA-2 设置中最争议、最不标准化的部分。腕部相机 + 俯瞰相机是安全默认。
- 最快出成果的方式:投稿 Open X-Embodiment 3.0(投稿截止 2026 年 6 月)。你的数据会被未来 2 年每篇 VLA 论文使用。
Q3 观察清单
- ALOHA-3(传言:腕部活动度更佳、目标砍半成本)
- GELLO-2 加选力反馈模块($600 加购)
- DeepMind RT-X 工业级遥操作平台(预期 $80K)
- 用 VLM 当质量审查的开源标注管线