2026-06-18 — views
피지컬 AI vs 전통 AI — 로봇 만들기가 챗봇보다 어려운 이유
모라벡의 역설, 시뮬레이션-투-리얼 격차, LLM 스케일링 법칙이 로봇과 자율주행에 적용되지 않는 이유를 분석.
피지컬 AI 벤치마크 시리즈 제38편 — 근본적인 난이도 격차
ChatGPT는 2개월 만에 사용자 1억 명을 달성했다. Waymo는 15년과 수십억 달러의 투자를 거친 후에야 미국 몇 개 도시에서 상업 운행을 시작했다. 둘 다 AI다. 왜 이렇게 큰 격차가 있는가?
답은 자금도, 인재도, 기업의 의지력도 아니다. 문제 자체의 물리적 성질에 근본적인 차이가 있다. 피지컬 AI——자율주행 차량, 휴머노이드 로봇, 배달 드론——는 현실 세계에서 작동하며, 오류에는 물리적 결과가 따르고, 훈련 데이터 수집 비용은 높으며, 시뮬레이터는 가장 중요한 순간에 정확히 실패한다. 이 글에서는 로봇을 만드는 것이 구조적으로 챗봇을 만드는 것보다 어려운 이유와, GPT-4를 가능하게 한 스케일링 법칙이 세상과 접촉해야 하는 기계에 직접 적용될 수 없는 이유를 설명한다.
섹션 1 — 핵심 난이도 비교
아래 표는 전통 AI(대규모 언어 모델, 이미지 생성기)와 피지컬 AI(자율주행 차량, 휴머노이드 로봇)가 구조적으로 다른 주요 차원을 매핑한다. 이것들은 더 빠른 칩이 해소할 수 있는 엔지니어링 격차가 아니라——문제 본질의 차이다.
| 차원 | 전통 AI (LLM) | 피지컬 AI (자율주행차, 로봇) |
|---|---|---|
| 입력 도메인 | 텍스트 / 토큰——이산적, 무손실 | 센서 데이터——연속적, 노이즈 있음, 손실 있음 |
| 출력 도메인 | 텍스트 / 토큰 | 물리적 행동——불가역적, 안전해야 함 |
| 오류 결과 | 잘못된 답 (수정 가능) | 물리적 피해 (불가역 가능성) |
| 훈련 데이터 | 인터넷 텍스트 (사실상 무한) | 실세계 경험 (비용 높음, 수집 느림) |
| 시뮬레이션 실현 가능성 | 높음——텍스트 시뮬레이터는 잘 작동 | 낮음——접촉·재료 변형에서 물리 시뮬레이터 실패 |
| 스케일링 법칙 동작 | 강함——더 많은 데이터 + 연산 → 확실히 향상 | 약함——시뮬레이션-투-리얼 격차가 이득을 제한 |
| 일반화 | 도메인 간 강함 | 약함——한 환경에서 훈련한 모델이 다른 환경에서 실패 |
| 엣지 케이스 꼬리 | 길지만 유계 (언어는 유한 문법을 가짐) | 사실상 무한——모든 물리 환경은 고유 |
| 안전 요건 | 낮음——잘못된 출력은 성가심 | 극히 높음——잘못된 출력이 사상자를 낼 수 있음 |
| 배포 속도 | 몇 시간 (소프트웨어 업데이트) | 수개월에서 수년 (검증, 규제 승인) |
가장 중요한 행은 오류 결과다. 잘못된 날짜를 환각하는 LLM은 수정 가능하다. 보행자를 잘못 분류한 자율주행 차량은 그렇지 않다. 이 하나의 비대칭성이 모든 하위 난이도를 만들어낸다: 검증 기준, 규제 부담, 안전 마진, 개발부터 배포까지의 타임라인.
섹션 2 — 모라벡의 역설
1988년, 로봇공학자 Hans Moravec은 다음과 같이 관찰했다:
“컴퓨터가 지능 테스트나 체커에서 성인 수준의 성과를 보이는 것은 비교적 쉽지만, 인지와 이동 측면에서 한 살짜리 아이의 능력을 부여하는 것은 어렵거나 불가능하다.”
인간의 직관이 뒤집히는 이 역설——인간에게 어려운 것이 AI에게는 쉽고, 인간에게 쉬운 것이 AI에게는 어렵다——이 이후 40년간 이 분야의 궤적을 설명한다.
인간에게 어렵고, AI에게 쉬운 것:
- 체스, 바둑, 수학 증명 (1997–2017)
- 법적 문서 독해, 연구 논문 요약 (2020–2022)
- 시 작성, 사실적 이미지 생성 (2022–2023)
- 코딩, 다단계 추론, 의료 진단 지원 (2024–2026)
인간에게 쉽고, 2026년 AI에게 여전히 어려운 것:
- 고르지 않은 지면을 넘어지지 않고 걷기
- 포도를 으깨지 않고 집어 들기
- 낯선 도로에서 폭우 속에 운전하기
- 어지러운 장면에서 한 번도 본 적 없는 물체 인식하기
- 떨어지는 유리잔이 바닥에 닿기 전에 잡기
왜 이 역전이 존재하는가? 인간의 “단순한” 물리적 기술은 약 5억 년의 생물학적 진화의 산물이다. 학습된 규칙이 아니라 하드웨어에 인코딩되어 있다: 뉴런의 아키텍처, 근육과 힘줄의 기계적 특성, 전정 시스템, 고유 감각(몸의 지속적인 자기 모델), 3차원 장면 이해를 위한 시각 피질의 깊은 전문화. 행렬 곱셈으로 구축된 AI 시스템은 진화가 지질학적 시간에 걸쳐 최적화한 것을 처음부터 배워야 한다. 지름길은 없다.
섹션 3 — 시뮬레이션-투-리얼 격차
피지컬 AI 훈련에서 가장 중요한 기술적 과제는 시뮬레이션-투-리얼 격차다: 시뮬레이션에서 훈련된 행동이 현실 세계로 확실하게 전이되지 않는 것.
시뮬레이션이 잘 할 수 있는 것:
시뮬레이션은 피지컬 AI 개발에 진정으로 강력하다. 현대 물리 시뮬레이터는 사실적인 카메라 이미지를 렌더링하고, 강체 역학을 시뮬레이션하고, 제어된 환경에서 대규모로 에이전트를 훈련할 수 있다. Tesla, Waymo, Boston Dynamics, 그리고 모든 진지한 피지컬 AI 기업은 시뮬레이션을 많이 사용한다.
시뮬레이션이 할 수 없는 것:
고정밀 접촉 물리. 로봇이 물체를 파지할 때, 접촉 지점의 변형, 마찰, 미끄러짐은 재료 특성——고무 대 유리 대 젖은 도자기 표면——에 따라 달라지며, 시뮬레이터는 이를 조악하게 근사한다. 신뢰할 수 있는 파지에 필요한 정밀도 수준에서의 시뮬레이션 마찰과 실제 마찰 사이의 격차는 30년 동안 로봇 조작의 핵심 미해결 문제였다.
장미 꼬리 환경 변동. 현실 세계에는 사실상 무한한 변동이 있으며 시뮬레이션에는 등장하지 않는다: 깨진 보도, 예상치 못한 각도의 그림자, 비표준 보행자 행동, 차선에 방치된 어린이 자전거, 센서를 가로지르는 낙엽, 나뭇가지에 가려진 표지판, 하룻밤 사이에 교통이 바뀐 공사 구간.
센서 노이즈 모델. 실제 카메라와 LiDAR 노이즈 패턴은 복잡하고 환경에 의존적이며, 온도, 습도, 센서 노화에 따라 변한다. 시뮬레이터는 단순화된 근사를 사용한다.
분포 이동. 시뮬레이션에서 훈련된 정책은 시뮬레이터가 생성하는 상태와 전이의 분포에서 훈련된다. 현실 세계는 다른 분포를 생성한다. 두 분포가 평균적으로 비슷해 보여도 꼬리가 다르다——피지컬 AI는 꼬리에서 실패한다.
시뮬레이션-투-리얼 격차는 더 나은 엔지니어링으로 수정할 수 있는 특정 시뮬레이터의 버그가 아니다. 물리 세계의 모든 모델과 물리 세계 자체 사이의 관계의 구조적 속성이다.
섹션 4 — LLM 스케일링 법칙이 완전히 적용되지 않는 이유
현대 AI에서 가장 중요한 실증적 발견은 DeepMind가 2022년에 공식화한 대규모 언어 모델의 “Chinchilla 스케일링 법칙”이다: LLM 성능은 훈련 데이터 양과 연산의 곱에 예측 가능하게 스케일된다. 더 많은 토큰과 더 많은 파라미터가 확실히 더 나은 언어 모델을 만들어낸다.
피지컬 AI는 이 법칙의 더 약한 버전을 가지며, 네 가지 특정 한계가 있다:
1. 데이터 병목. 물리 세계는 다운로드할 수 없다. 자율주행 차량의 모든 실세계 훈련 마일은 주행 비용이 든다. 물리적 훈련 데이터는 물리적·자본적으로 속도 제한을 받는다.
2. 시뮬레이션 데이터 상한선. 더 많은 시뮬레이션 훈련 데이터는 어느 지점까지 도움이 된다——그리고 시뮬레이션-투-리얼의 벽에 부딪힌다. 정책이 시뮬레이터의 특정 물리 근사에 과적합하기 시작하면, 한계 가치가 감소한다.
3. 안전 검증은 연산과 함께 스케일되지 않는다. 사실 질문에서 0.1% 오류율을 가진 LLM은 유용하고 배포 가능하다. 안전 중요 결정에서 0.1% 오류율을 가진 자율주행 차량은 어떤 규제 기관도 공공 도로 운행을 허용하지 않을 공중 보건 위기다.
4. 물리 환경의 긴 꼬리는 정말로 길다. 언어는 유한한 어휘와 문법을 가진다. 물리 환경의 조합 공간은 사실상 무한하다: 날씨 조건, 도로 표면, 교통 밀도, 보행자 행동의 모든 조합이 훈련 분포에 등장하지 않을 수 있는 고유한 시나리오를 나타낸다.
아직 아무도 이루지 못한 돌파구: 인터넷 규모 텍스트 사전 훈련이 언어 모델에 주는 것과 동일한 시뮬레이션-투-리얼 전이 이점을 로봇에게 주는 범용 “물리 기반 모델”. 여러 연구 프로그램이 이 방향을 향해 노력하고 있지만, 아직 일반적인 조작이나 주행에서 시뮬레이션-투-리얼 상한선을 깨는 전이 특성을 보여준 곳은 없다.
섹션 5 — 같은 어려운 문제에 대한 두 가지 접근: Tesla 대 Waymo
| 접근 | Tesla FSD | Waymo |
|---|---|---|
| 훈련 데이터 전략 | 소비자 규모의 실세계 감독 마일 | 고품질 무인 상업 마일 |
| 시뮬레이션 역할 | 엣지 케이스와 섀도 모드에 많이 사용 | 전용 센서 시뮬레이션 포함 다용 |
| 모델 아키텍처 | 엔드투엔드 신경망——카메라 입력에서 조향/가속 출력 | 모듈식——인지, 예측, 계획 분리 |
| 일반화 베팅 | 스케일이 LLM처럼 창발적 일반화를 만든다 | 구조화된 추론과 센서 융합 |
| 안전 철학 | 수백만 마일에서 통계적으로 입증된 안전성 | 형식 검증과 보수적 안전 마진 |
| 핵심 베팅 | 엔드투엔드와 대규모가 언어처럼 작동한다 | 모듈식과 형식적 방법이 안전 꼬리에서 승리한다 |
Tesla의 베팅은 본질적으로 LLM 가설을 피지컬 AI에 적용하는 것이다: 충분히 큰 차량 집단에서 충분한 실세계 데이터를 수집하고 엔드투엔드 모델을 훈련시키면 창발적 일반화가 따른다.
Waymo의 베팅은 주행의 물리적·안전 제약이 블랙박스 신경망에게는 꼬리에서 확실하게 처리하기에는 너무 구조화되어 있다는 것이다.
미해결 질문: 두 접근 모두 제한 없는 도시 환경에서의 완전 무인 주행에 필요한 10억 마일당 1회의 안전 수준을 입증하지 못했다. Tesla FSD는 규제 분류에서 여전히 운전자 감독이 필요한 2등급 운전 지원 시스템이다. Waymo는 특정 날씨 조건에서 지오펜스 도시 구역에서 상업적으로 무인 운전을 한다.
섹션 6 — 이 시리즈에 대해
이것은 피지컬 AI 벤치마크 시리즈의 제38편이다. 이 글은 기초 기술 프레임워크를 제공한다: 모라벡의 역설, 시뮬레이션-투-리얼 격차, 피지컬 AI에 적용된 LLM 스케일링 법칙의 한계, Tesla의 엔드투엔드 베팅과 Waymo의 모듈식 접근 간의 구조적 비교.
주의: 이 글의 기술 평가, 능력 타임라인, 경쟁 비교는 2026년 중반 기준 공개 정보와 산업 분석을 반영한다. 예측은 추정치이며 보장이 아니다. 이 글의 어떤 내용도 투자 조언을 구성하지 않는다. 투자 결정을 내리기 전에 자체적인 실사를 수행하고 면허가 있는 재무 고문과 상담하라.
출처
- Hans Moravec — Mind Children (1988) — MIT Press ↗
- Chinchilla scaling laws — DeepMind (2022) ↗
- Sim-to-real transfer in robotics — arXiv survey ↗
- Tesla FSD end-to-end architecture — Tesla AI Day 2022 ↗