Builder Daily

2026-04-25

텔레오퍼레이션 데이터 엔진 — ALOHA-2 와 GELLO 가 새로운 학습 코퍼스인 이유

임바디드 AI 는 양손 조작 데이터로 막혀 있습니다. $35K ALOHA-2 리그는 하루 50 시간 수집 가능. $300 GELLO 는 100 배 저렴하지만 느립니다. 2026 년 텔레옵 팜 운영의 실제 현실을 정리합니다.

언어 파운데이션 모델이 오픈 웹에서 막힌다면, 조작 파운데이션 모델은 양손 텔레옵 시연 에서 막힙니다. “사람 손이 컵을 집는” 데 대한 Common Crawl 은 없습니다. 한 번에 하나씩 인간 오퍼레이터가 수집한 궤적뿐. 두 하드웨어 플랫폼이 사실 표준이 되었습니다.

ALOHA-2 — 양팔 프로덕션 리그

Stanford 의 ALOHA-2 는 (산업용 로보틱스 대비) 저비용 양손 텔레오퍼레이션 플랫폼입니다. 두 개의 리더 암 (사람이 조작) 과 두 개의 팔로워 암 (“로봇”) 에 고해상도 손목 카메라와 탑다운 장면 카메라가 추가됩니다. 리그당 부품비는 약 $35,000 이며, 이는 진지한 조작 연구의 입장료가 되었습니다.

ALOHA-2 가 실제로 제공하는 것: 동기화된 이미지, 관절 각도, 그리퍼 상태가 포함된 고품질, 저지연 양손 데이터. 훈련된 오퍼레이터는 리그당 하루 6-8 시간의 사용 가능한 시연을 수집할 수 있습니다 (원시 수집 시간은 더 높음; 실패 시도를 필터링해야 하므로 사용 가능률이 중요).

2026 년에 발표된 대부분의 VLA 논문 (RT-3, π0.5, GR00T N2) 은 미세조정 데이터에 ALOHA-2 또는 파생을 사용했습니다. ALOHA-2 데이터 형식은 사실상의 교환 표준입니다.

GELLO — $300 의 대안

GELLO 는 영리한 아이디어: 비싼 리더 암 대신 팔로워 암의 3D 프린트된 운동학 복제와 저렴한 인코더를 사용. 손으로 GELLO 모델을 움직이면 팔로워가 미러링합니다. 리그당 부품비 $300-500. 데이터 품질은 ALOHA-2 보다 낮음 (힘 피드백 없음, 정밀 운동 정확도 낮음) 이지만 스케일 비용은 100 배 저렴.

GELLO 가 적합: 수십 명의 오퍼레이터로 스케일링하거나 조작 작업이 단순할 때 (픽 앤 플레이스, 서랍 열기). 부적합: 외과 정밀 작업 또는 접촉이 많은 조작 (껍질 벗기기, 절단, 조립).

Open X-Embodiment 2.0 데이터셋은 GELLO 수집 약 30%, ALOHA-2 약 50%, 나머지 20% 는 산업 로봇 데모.

라벨링 위기

공개적으로 거의 논의되지 않는 부분: 수집은 더 이상 병목이 아니며, 라벨링이 병목. 단일 ALOHA-2 리그는 하루 약 50 GB 의 멀티모달 데이터를 생성. 품질 검토 (실패 시도 필터링, 작업 경계 분할, 서브태스크 라벨 주석) 는 수집 1 시간당 4-6 시간의 사람 시간이 필요.

2026 년에 텔레옵 팜을 운영하는 대부분의 팀은 라벨링되지 않은 데이터의 5-10 배 백로그를 가지고 있습니다. 프로덕션 솔루션:

2026 년의 비용 경제학

오늘 조작 연구실을 시작한다면:

실전 노트

Q3 관전 포인트


Sources

커피