Skip to content
AI-Daily-Builder

arXiv 2605.08083·2026-05-21 回閲覧

AutoTTS —— LLM エージェントが $39.90 で自らの test-time scaling 戦略を発見

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland ほか

AutoTTS は test-time scaling を controller-synthesis 問題に再構成:LLM エージェントが branch・continue・probe・prune・stop のタイミングを自ら発見し、手調整の best-of-N を置き換える。発見ループ全体が $39.90 / 160 分で、精度-コストのトレードオフで手調整ベースラインを上回る。

arxiv.org/abs/2605.08083 ↗


AutoTTS(arXiv 2605.08083)は、推論モデルを運用する全チームが直面する問題を攻める:クエリごとにどれだけ test-time コンピュートを、どう使うべきか? 今日それは手調整 —— 固定 best-of-N サンプリング、静的ツリー探索、誰かが選んだマジックナンバー。AutoTTS はレシピ自体を LLM エージェントが自動発見するものにする。

再構成

Test-time scaling(TTS)を、事前収集した推論トラジェクトリに対する controller-synthesis 問題 に再構成。学習されたコントローラが各ステップで決める:

beta パラメータ化と実行トレースフィードバックが発見ループを効率化。

見出しの数字

戦略発見プロセス全体が $39.90 と 160 分のコンピュート —— 発見されたコントローラは:

結果
手設計ベースライン比精度-コストのトレードオフで上回る
汎化held-out 数学ベンチに転移
モデルスケール異なるモデルサイズで有効

なぜ重要か

ほとんどの test-time コンピュート研究はタスクごとに 1 つの推論レシピを手調整する。AutoTTS はオーケストレーションロジックを探索可能として扱い、どれだけ考えるかのポリシーが書かれるのでなく学習される自己改善型推論パイプラインを指し示す。

ほぼ自明な発見コストが本当のシグナル:1 ラン約 $40 で、この種のメタ最適化は日常的に走らせるほど安い —— 製品ごと、タスククラスごと、モデルアップグレードごと —— 一度きりの研究成果ではなく。これは Recursive Superintelligence のテーゼ に直結:AI が自らの推論ループを最適化、それを実験でなくデフォルトにするコストで。

Practitioner note

本番で推論モデルを運用するチーム向け:

過小評価される角度:オーケストレーション層がモデルとプロンプトの次に自動化される。 プロンプトエンジニアリングが体系化され、モデル選択がルーティングになるのを見てきた。Test-time コンピュートのオーケストレーションは推論スタックで最後の手調整層 —— AutoTTS は、それも人間の推測でなく学習されたポリシーになる早期シグナル。

チップ