Skip to content
AI-Daily-Builder

arXiv 2605.08083·2026-05-21 회 조회

AutoTTS —— LLM 에이전트가 $39.90로 자신의 test-time scaling 전략을 발견

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 외

AutoTTS는 test-time scaling을 controller-synthesis 문제로 재구성: LLM 에이전트가 branch·continue·probe·prune·stop 시점을 스스로 발견해 수동 튜닝 best-of-N을 대체. 발견 루프 전체가 $39.90 / 160분, 정확도-비용 트레이드오프에서 수동 베이스라인을 능가.

arxiv.org/abs/2605.08083 ↗


AutoTTS(arXiv 2605.08083)는 추론 모델을 운영하는 모든 팀이 부딪치는 문제를 공략한다: 쿼리당 test-time 컴퓨트를 얼마나, 어떻게 써야 하나? 오늘날 그것은 수동 튜닝 —— 고정 best-of-N 샘플링, 정적 트리 탐색, 누군가 고른 매직 넘버. AutoTTS는 레시피 자체를 LLM 에이전트가 자동 발견하는 것으로 만든다.

재구성

Test-time scaling(TTS)을 사전 수집된 추론 트라젝토리에 대한 controller-synthesis 문제로 재구성. 학습된 컨트롤러가 각 스텝에서 결정:

beta 파라미터화 + 실행 트레이스 피드백이 발견 루프를 효율화.

헤드라인 숫자

전략 발견 프로세스 전체가 $39.90와 160분 컴퓨트 —— 발견된 컨트롤러는:

결과
수동 설계 베이스라인 대비정확도-비용 트레이드오프에서 우위
일반화held-out 수학 벤치로 전이
모델 스케일다른 모델 크기에서 작동

왜 중요한가

대부분의 test-time 컴퓨트 연구는 태스크마다 하나의 추론 레시피를 수동 튜닝한다. AutoTTS는 오케스트레이션 로직을 탐색 가능으로 다루며, 얼마나 생각할지 정책이 작성되는 게 아니라 학습되는 자기개선 추론 파이프라인을 가리킨다.

거의 사소한 발견 비용이 진짜 신호: 1회 약 $40로, 이런 메타 최적화는 일상적으로 돌릴 만큼 저렴 —— 제품마다, 태스크 클래스마다, 모델 업그레이드마다 —— 일회성 연구 산물이 아니라. 이는 Recursive Superintelligence 테제에 직결: AI가 자신의 추론 루프를 최적화, 그것을 실험이 아닌 기본값으로 만드는 비용에.

Practitioner note

프로덕션에서 추론 모델을 운영하는 팀 대상:

과소평가된 각도: 오케스트레이션 계층이 모델과 프롬프트 다음으로 자동화된다. 프롬프트 엔지니어링이 체계화되고 모델 선택이 라우팅이 되는 것을 봤다. Test-time 컴퓨트 오케스트레이션은 추론 스택에서 마지막 수동 튜닝 계층 —— AutoTTS는 그것도 인간의 추측이 아닌 학습된 정책이 된다는 초기 신호.

커피