arXiv 2605.08083·2026-05-21 — 회 조회

AutoTTS —— LLM 에이전트가 $39.90로 자신의 test-time scaling 전략을 발견

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 외

AutoTTS는 test-time scaling을 controller-synthesis 문제로 재구성: LLM 에이전트가 branch·continue·probe·prune·stop 시점을 스스로 발견해 수동 튜닝 best-of-N을 대체. 발견 루프 전체가 $39.90 / 160분, 정확도-비용 트레이드오프에서 수동 베이스라인을 능가.

arxiv.org/abs/2605.08083 ↗

AutoTTS(arXiv 2605.08083)는 추론 모델을 운영하는 모든 팀이 부딪치는 문제를 공략한다: 쿼리당 test-time 컴퓨트를 얼마나, 어떻게 써야 하나? 오늘날 그것은 수동 튜닝 —— 고정 best-of-N 샘플링, 정적 트리 탐색, 누군가 고른 매직 넘버. AutoTTS는 레시피 자체를 LLM 에이전트가 자동 발견하는 것으로 만든다.

재구성

Test-time scaling(TTS)을 사전 수집된 추론 트라젝토리에 대한 controller-synthesis 문제로 재구성. 학습된 컨트롤러가 각 스텝에서 결정:

branch(여러 연속 탐색)
continue(현재 경로 연장)
probe(저렴한 전방 탐색)
prune(약한 분기 제거)
stop(답에 커밋)

beta 파라미터화 + 실행 트레이스 피드백이 발견 루프를 효율화.

헤드라인 숫자

전략 발견 프로세스 전체가 $39.90와 160분 컴퓨트 —— 발견된 컨트롤러는:

	결과
수동 설계 베이스라인 대비	정확도-비용 트레이드오프에서 우위
일반화	held-out 수학 벤치로 전이
모델 스케일	다른 모델 크기에서 작동

왜 중요한가

대부분의 test-time 컴퓨트 연구는 태스크마다 하나의 추론 레시피를 수동 튜닝한다. AutoTTS는 오케스트레이션 로직을 탐색 가능으로 다루며, 얼마나 생각할지 정책이 작성되는 게 아니라 학습되는 자기개선 추론 파이프라인을 가리킨다.

거의 사소한 발견 비용이 진짜 신호: 1회 약 $40로, 이런 메타 최적화는 일상적으로 돌릴 만큼 저렴 —— 제품마다, 태스크 클래스마다, 모델 업그레이드마다 —— 일회성 연구 산물이 아니라. 이는 Recursive Superintelligence 테제에 직결: AI가 자신의 추론 루프를 최적화, 그것을 실험이 아닌 기본값으로 만드는 비용에.

Practitioner note

프로덕션에서 추론 모델을 운영하는 팀 대상:

test-time 컴퓨트가 수동 튜닝인지 감사하라. best-of-8을 「느낌이 맞아서」 골랐다면 정확도-비용 곡선의 잘못된 점에 있을 가능성이 높다. AutoTTS식 발견은 그 점을 경험적으로 찾는다.
비용 레버는 쿼리당 컴퓨트이고, 과소 활용되고 있다. 대부분의 팀은 모델 선택과 프롬프트를 최적화하고 추론 오케스트레이션은 정적으로 둔다. 그것이 AutoTTS가 학습 가능하다고 보인 계층 —— 비용 절감이 숨은 곳.
이것이 추론 프레임워크에 들어오는 것을 봐라. $40 발견 루프는 vLLM/SGLang식 서빙 스택이 학습된 TTS 컨트롤러를 기능으로 출하할 만큼 저렴. 그러면 수동 튜닝 best-of-N은 레거시가 된다.

과소평가된 각도: 오케스트레이션 계층이 모델과 프롬프트 다음으로 자동화된다. 프롬프트 엔지니어링이 체계화되고 모델 선택이 라우팅이 되는 것을 봤다. Test-time 컴퓨트 오케스트레이션은 추론 스택에서 마지막 수동 튜닝 계층 —— AutoTTS는 그것도 인간의 추측이 아닌 학습된 정책이 된다는 초기 신호.