arXiv 2605.08083·2026-05-21 — 회 조회
AutoTTS —— LLM 에이전트가 $39.90로 자신의 test-time scaling 전략을 발견
Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 외
AutoTTS는 test-time scaling을 controller-synthesis 문제로 재구성: LLM 에이전트가 branch·continue·probe·prune·stop 시점을 스스로 발견해 수동 튜닝 best-of-N을 대체. 발견 루프 전체가 $39.90 / 160분, 정확도-비용 트레이드오프에서 수동 베이스라인을 능가.
AutoTTS(arXiv 2605.08083)는 추론 모델을 운영하는 모든 팀이 부딪치는 문제를 공략한다: 쿼리당 test-time 컴퓨트를 얼마나, 어떻게 써야 하나? 오늘날 그것은 수동 튜닝 —— 고정 best-of-N 샘플링, 정적 트리 탐색, 누군가 고른 매직 넘버. AutoTTS는 레시피 자체를 LLM 에이전트가 자동 발견하는 것으로 만든다.
재구성
Test-time scaling(TTS)을 사전 수집된 추론 트라젝토리에 대한 controller-synthesis 문제로 재구성. 학습된 컨트롤러가 각 스텝에서 결정:
- branch(여러 연속 탐색)
- continue(현재 경로 연장)
- probe(저렴한 전방 탐색)
- prune(약한 분기 제거)
- stop(답에 커밋)
beta 파라미터화 + 실행 트레이스 피드백이 발견 루프를 효율화.
헤드라인 숫자
전략 발견 프로세스 전체가 $39.90와 160분 컴퓨트 —— 발견된 컨트롤러는:
| 결과 | |
|---|---|
| 수동 설계 베이스라인 대비 | 정확도-비용 트레이드오프에서 우위 |
| 일반화 | held-out 수학 벤치로 전이 |
| 모델 스케일 | 다른 모델 크기에서 작동 |
왜 중요한가
대부분의 test-time 컴퓨트 연구는 태스크마다 하나의 추론 레시피를 수동 튜닝한다. AutoTTS는 오케스트레이션 로직을 탐색 가능으로 다루며, 얼마나 생각할지 정책이 작성되는 게 아니라 학습되는 자기개선 추론 파이프라인을 가리킨다.
거의 사소한 발견 비용이 진짜 신호: 1회 약 $40로, 이런 메타 최적화는 일상적으로 돌릴 만큼 저렴 —— 제품마다, 태스크 클래스마다, 모델 업그레이드마다 —— 일회성 연구 산물이 아니라. 이는 Recursive Superintelligence 테제에 직결: AI가 자신의 추론 루프를 최적화, 그것을 실험이 아닌 기본값으로 만드는 비용에.
Practitioner note
프로덕션에서 추론 모델을 운영하는 팀 대상:
- test-time 컴퓨트가 수동 튜닝인지 감사하라. best-of-8을 「느낌이 맞아서」 골랐다면 정확도-비용 곡선의 잘못된 점에 있을 가능성이 높다. AutoTTS식 발견은 그 점을 경험적으로 찾는다.
- 비용 레버는 쿼리당 컴퓨트이고, 과소 활용되고 있다. 대부분의 팀은 모델 선택과 프롬프트를 최적화하고 추론 오케스트레이션은 정적으로 둔다. 그것이 AutoTTS가 학습 가능하다고 보인 계층 —— 비용 절감이 숨은 곳.
- 이것이 추론 프레임워크에 들어오는 것을 봐라. $40 발견 루프는 vLLM/SGLang식 서빙 스택이 학습된 TTS 컨트롤러를 기능으로 출하할 만큼 저렴. 그러면 수동 튜닝 best-of-N은 레거시가 된다.
과소평가된 각도: 오케스트레이션 계층이 모델과 프롬프트 다음으로 자동화된다. 프롬프트 엔지니어링이 체계화되고 모델 선택이 라우팅이 되는 것을 봤다. Test-time 컴퓨트 오케스트레이션은 추론 스택에서 마지막 수동 튜닝 계층 —— AutoTTS는 그것도 인간의 추측이 아닌 학습된 정책이 된다는 초기 신호.