Skip to content
AI-Daily-Builder

2026-06-08

휴머노이드 로봇의 병목은 하드웨어가 아니다 — 데이터다. 그리고 중국은 유료 인간 영상으로 그것을 힘으로 밀어붙이고 있다

조회

6월 3일 보도는 JD.com 등이 휴머노이드를 학습시키기 위해 일반인에게 시간당 3달러를 주고 집안일을 촬영하게 하는 실태를 상세히 전한다. 진짜 피지컬 AI 경쟁은 학습 데이터를 둘러싼 것이며, 그 공급망이 산업화되고 있다.

무엇이 등장했나

올봄의 화려한 피지컬 AI 헤드라인은 하드웨어와 돈——공장 라인, 배치 계획, 수십억 달러 규모의 투자 라운드——에 관한 것이었다. 더 중요한 이야기는 더 조용하며, Rest of World의 6월 3일 보도에 나타났다. 즉, 휴머노이드 로봇을 위한 데이터 공급망이 산업화되고 있으며, 지금 이 순간 중국이 다른 누구도 따라오지 못하는 규모로 그것을 하고 있다는 것이다.

가장 분명한 사례가 JD.com이다. 이 회사는 쑤첸(Suqian) 지방정부와 협력해 2년에 걸쳐 1,000만 시간의 로봇 학습 데이터를 목표로 삼고 있는데——그 세부 구성이 중요하다. Gasgoo의 보도에 따르면, 이 계획은 1년 차에 실세계 인간 시나리오 영상 500만 시간을 앞당겨 투입하고, 2년 차에는 1,000만 시간을 넘기며, 그 위에 추가로 약 100만 시간의 로봇 본체 데이터를 얹는다. 이를 수집하기 위해 JD는 물류, 제조, 의료, 가사 서비스, 도시 운영에 걸친 100개 이상의 시나리오에서 10만 명이 넘는 내부 직원과 최대 50만 명의 외부 작업자를 동원할 것이라고 밝혔다.

빌더들이 곱씹어야 할 부분이 바로 그 수집 방법이다. 이것은 연구실의 값비싼 원격조작(teleoperation) 장비가 아니다. 헤드 카메라를 쓴 평범한 사람들이다. Rest of World는 **하루 6시간, 시간당 20위안(약 3달러)**에 집안일을 촬영하는 재택 작업자와, 선전(Shenzhen)에 본사를 둔 X Square Robot의 로봇이 옷 몇 점을 개고 신발을 정리하는 연습을 한 3시간짜리 가정 방문 세션에 **149위안(약 22달러)**을 지불한 주택 소유자를 묘사한다. 광둥(Guangdong)의 공장 노동자들은 라인에서의 손동작을 포착하기 위해 헤드 카메라에 손목 센서까지 착용한다.

왜 하드웨어가 아니라 데이터가 관문인가

이것은 체화된 AI(embodied AI)의 근본적인 비대칭성에 비추어 볼 때에만 말이 된다. MIT Technology Review가 2024년에 표현했듯이, 로봇에 필요한 데이터는 “GPT 같은 가장 진보한 AI 모델을 학습시키는 데 쓰이는 데이터——대부분 인터넷에서 긁어모은 텍스트, 이미지, 영상——보다 훨씬 더 구하기 어렵다.” 언어 모델은 열린 웹을 먹는다. 로봇 정책(policy)에는 동기화된 카메라 프레임, 관절 각도, 그리퍼 힘, 그리고 과제 맥락이 필요하며——이 모든 것은 실제 물리적 상호작용 도중에 기록되어야 한다. 그런 데이터는 인터넷 규모로는 그냥 존재하지 않으며, “실세계 데이터는 상대적으로 희소하고, 수집하는 데 훨씬 더 많은 시간, 노력, 값비싼 장비를 요구하는 경향이 있다.”

번역하자면: 범용 조작(manipulation) 정책에는 스크래핑만으로 도달할 수 없다. 누군가가 계측 장비를 단 채로 그 과제들을 수백만 번 물리적으로 수행해야 한다. 그 파이프라인을 가장 싸고 가장 넓게 세울 수 있는 자가 더 나은 모델을 갖는다.

그것은 최근의 하드웨어 이정표들을 다시 자리매김한다. 시간당 휴머노이드를 찍어내는 공장은 인상적이지만, 다양하고 과제 특화된 데이터가 없는 로봇은 값비싼 마네킹일 뿐이다. 배치와 데이터 수확은 같은 프로젝트다. 계측 장비를 단 노동자 한 명 한 명, 훈련장의 로봇 한 대 한 대가 데이터 생성 노드다.

처리량 계산

중국의 접근법은 본질적으로 노동력을 대량의 시연으로 전환하는 것이다. People’s Daily(4월 28일)는 스징산(Shijingshan) 훈련 센터——10,000제곱미터가 넘는 시설——에서 2025년 10월에 100대의 휴머노이드 로봇이 훈련을 시작했고, 각 로봇이 하루에 약 4시간의 학습 데이터를 생성한다고 보도했다. 2분 샘플링 간격으로, 운영자는 100대의 로봇이 옷 개기, 소포 분류, 바코드 스캔, 자물쇠 열기 같은 집안일에서 하루에 최소 12,000건의 데이터 수집 과제를 완료할 수 있다고 말한다.

쌓아 놓고 보면, 두 가지 수집 방식은 다음과 같다:

출처운영자속도 / 규모비용 신호
가정 영상(자기중심 시점)거주자, 헤드 카메라1인당 약 6시간/일약 $3/시 노동; 로봇 가정 방문 3시간당 약 $22
공장 캡처라인 노동자 + 손목 센서근무 시간 내내 지속기존 임금 위에 얹힘
로봇 훈련장100대, 계측 장비 장착1대당 약 4시간/일; 약 12,000과제/일고정 시설(10,000+ m²)
프로그램 목표(JD, 쑤첸)내부 10만 + 외부 50만2년에 1,000만 시간(1년 차 500만은 인간 영상)보조금 지원, 정부 협력

이 수치들은 서로 다른 운영자들로부터 나온 것이라 하나의 깔끔한 총계로 합산해서는 안 되지만, 방향은 명백하다. 즉, 인간 영상 데이터가 하나의 원자재 투입물로 취급되고, 최저임금에 가까운 노동력으로 가격이 매겨지며, 수십만 명에 의해 병렬로 생산되고 있다는 것이다.

실무 노트

내가 조작(manipulation)에 닿는 무언가를 만들고 있다면, 데이터 수집을 모델의 각주처럼 취급하는 것을 그만둘 것이다. 내가 실제로 할 몇 가지:

간과된 관점

모두가 합성 데이터 대 실제 데이터를 논쟁하고 있다. 덜 논의되는 변수는 누가 그 노동력 파이프라인을 소유하는가이다. 이것이 한곳에 집중되는 이유는 모델의 돌파구가 아니다——“데이터 수집 동네”를 세우고, 그것을 지방정부로 보조하며, 사람들에게 시간당 몇 달러를 주고 자신의 일상생활에 계측 장비를 달게 할 수 있다는 것이다. 그것은 알고리즘상의 우위가 아니라 산업정책과 물류상의 우위이며, 서구 스타트업이 가격 면에서 그것을 복제하는 것은 또 다른 트랜스포머 아키텍처를 복제하는 것보다 훨씬 더 어렵다.

2차적 위험: 한 세대의 범용 로봇 정책이 결국 한 나라의 가정, 부엌, 공장, 매장 배치에 불균형하게 치우쳐 학습될 수 있다. 그것은 분포 편향(distributional bias)을 새겨 넣는다——100만 채의 중국 아파트를 보았지만 미국이나 유럽의 것은 거의 보지 못한 로봇은, 다른 곳에 배치되는 순간 조용히 성능이 떨어질 수 있고, 아무도 그것을 벤치마크 숫자에서 보지 못할 것이다. 그 파이프라인 바깥에 있는 빌더에게 해야 할 수는 인간 영상 수확에서 상대보다 더 많이 쓰는 것이 아니다. 그것은 당신이 출시해 들어가는 바로 그 환경을 위한, 범위가 좁고 고품질이며 현지에 뿌리내린 데이터셋을 소유하는 것——그리고 당신이 파인튜닝하는 기반 모델이 남의 거실을 사전확률(prior)로 조용히 들여오고 있지 않은지 확인하는 것이다.


Sources

커피