arXiv 2604.19295 · 2026-04-21

TEMPO: 대형 reasoning 모델을 위한 test-time training 확장

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 프레임워크로, policy는 라벨이 없는 문제 위에서 정제되고 critic은 라벨 데이터로 주기적으로 보정됩니다. OLMO3-7B는 AIME 2024에서 33.0%에서 51.1%로 상승했습니다.

arxiv.org/abs/2604.19295 ↗

TEMPO는 test-time training(TTT) 프레임워크입니다. policy는 라벨이 없는 문제 위에서 정제되고, critic은 라벨이 있는 데이터로 주기적으로 보정되며, 전체적으로 EM 형태로 형식화돼 있습니다.

수치는 이렇습니다. OLMO3-7B는 AIME 2024에서 33.0%에서 51.1%로 상승, Qwen3-14B는 42.3%에서 65.8%로 상승하며, 출력 다양성도 함께 유지됩니다.

실전 노트(개인적인)

추론 시점에 모델 파라미터를 실제로 업데이트하는 TTT는 수년 동안 연구실의 진귀한 사례였습니다. 이런 수치가 나오면서 reasoning 향상의 실용적 레버로 자리 잡고 있습니다.

개발자에게는 주로 전략적 질문입니다. 언제 오프라인 파인튜닝이 더 합리적이고, 언제 운영 중 온라인 적응이 합리적인가. TEMPO는 어려운 추론 작업(수학, 정리 증명, 복잡한 코드 리뷰), 즉 “오답의 비용이 큰” 작업에서 답이 온라인 쪽으로 기우는 중임을 시사합니다. 저위험 고처리량 작업은 비용 면에서 여전히 오프라인이 우세합니다.