arXiv 2605.08083·2026-05-21 — 回閲覧
AutoTTS —— LLM エージェントが $39.90 で自らの test-time scaling 戦略を発見
Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland ほか
AutoTTS は test-time scaling を controller-synthesis 問題に再構成:LLM エージェントが branch・continue・probe・prune・stop のタイミングを自ら発見し、手調整の best-of-N を置き換える。発見ループ全体が $39.90 / 160 分で、精度-コストのトレードオフで手調整ベースラインを上回る。
AutoTTS(arXiv 2605.08083)は、推論モデルを運用する全チームが直面する問題を攻める:クエリごとにどれだけ test-time コンピュートを、どう使うべきか? 今日それは手調整 —— 固定 best-of-N サンプリング、静的ツリー探索、誰かが選んだマジックナンバー。AutoTTS はレシピ自体を LLM エージェントが自動発見するものにする。
再構成
Test-time scaling(TTS)を、事前収集した推論トラジェクトリに対する controller-synthesis 問題 に再構成。学習されたコントローラが各ステップで決める:
- branch(複数の継続を探索)
- continue(現在のパスを延長)
- probe(安価な先読み)
- prune(弱い分岐を切る)
- stop(答えにコミット)
beta パラメータ化と実行トレースフィードバックが発見ループを効率化。
見出しの数字
戦略発見プロセス全体が $39.90 と 160 分のコンピュート —— 発見されたコントローラは:
| 結果 | |
|---|---|
| 手設計ベースライン比 | 精度-コストのトレードオフで上回る |
| 汎化 | held-out 数学ベンチに転移 |
| モデルスケール | 異なるモデルサイズで有効 |
なぜ重要か
ほとんどの test-time コンピュート研究はタスクごとに 1 つの推論レシピを手調整する。AutoTTS はオーケストレーションロジックを探索可能として扱い、どれだけ考えるかのポリシーが書かれるのでなく学習される自己改善型推論パイプラインを指し示す。
ほぼ自明な発見コストが本当のシグナル:1 ラン約 $40 で、この種のメタ最適化は日常的に走らせるほど安い —— 製品ごと、タスククラスごと、モデルアップグレードごと —— 一度きりの研究成果ではなく。これは Recursive Superintelligence のテーゼ に直結:AI が自らの推論ループを最適化、それを実験でなくデフォルトにするコストで。
Practitioner note
本番で推論モデルを運用するチーム向け:
- test-time コンピュートが手調整かを監査。 best-of-8 を「しっくりくる」から選んだなら、精度-コスト曲線の間違った点にいる可能性が高い。AutoTTS 式発見はその点を経験的に見つける。
- コストレバーはクエリあたりコンピュートで、過小活用されている。 ほとんどのチームはモデル選択とプロンプトを最適化し、推論オーケストレーションは静的なまま。それが AutoTTS が学習可能と示す層 —— コスト削減の隠れ場所。
- これが推論フレームワークに入るのを見る。 $40 の発見ループは、vLLM/SGLang 式サービングスタックが学習済み TTS コントローラを機能として出荷できるほど安い。そうなれば手調整 best-of-N はレガシーに。
過小評価される角度:オーケストレーション層がモデルとプロンプトの次に自動化される。 プロンプトエンジニアリングが体系化され、モデル選択がルーティングになるのを見てきた。Test-time コンピュートのオーケストレーションは推論スタックで最後の手調整層 —— AutoTTS は、それも人間の推測でなく学習されたポリシーになる早期シグナル。