arXiv 2605.08083·2026-05-21 — 次瀏覽
AutoTTS —— LLM 代理用 $39.90 自己發現 test-time scaling 策略
Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 等
AutoTTS 把 test-time scaling 重構成 controller-synthesis 問題:LLM 代理自己發現何時 branch、continue、probe、prune、stop —— 取代手調 best-of-N。整個發現迴圈花 $39.90 / 160 分鐘,在準確度-成本權衡上勝過手調基準。
AutoTTS(arXiv 2605.08083)攻擊每個跑推理模型團隊都會碰到的問題:每次查詢該花多少 test-time 算力、怎麼花? 今天那是手調的 —— 固定 best-of-N 取樣、靜態 tree search、某人挑的魔術數字。AutoTTS 讓配方本身變成 LLM 代理自動發現的東西。
重構
Test-time scaling(TTS)被重構成對預收集推理軌跡的 controller-synthesis 問題。學習到的 controller 在每一步決定要:
- branch(探索多個延續)
- continue(延伸當前路徑)
- probe(便宜的前瞻)
- prune(砍掉弱分支)
- stop(提交答案)
beta-參數化加上執行軌跡回饋讓發現迴圈高效。
頭條數字
整個策略發現過程花 $39.90 與 160 分鐘算力 —— 而發現的 controllers:
| 結果 | |
|---|---|
| vs 手設計基準 | 在準確度-成本權衡上勝出 |
| 泛化 | 轉移到 held-out 數學基準 |
| 模型規模 | 跨不同模型大小有效 |
為什麼重要
多數 test-time 算力工作對每個任務手調一個推論配方。AutoTTS 把協調邏輯當成可搜尋,指向「自我改進的推論管線」 —— 該想多少的政策是學來的,不是寫死的。
近乎瑣碎的發現成本是真正的訊號:約 $40 一輪,這種 meta-最佳化便宜到能例行跑 —— 每產品、每任務類、每次模型升級 —— 而不是一次性研究產物。這直接連到 Recursive Superintelligence 論點:AI 最佳化自己的推論迴圈,成本低到變成預設而非實驗。
Practitioner note
對在生產跑推理模型的團隊:
- 檢查你的 test-time 算力是否手調。 若你選 best-of-8 是因為「感覺對」,你很可能在準確度-成本曲線的錯誤點上。AutoTTS 式發現用經驗找到那個點。
- 成本 lever 是每查詢算力,而它被低度利用。 多數團隊最佳化模型選擇與 prompt,然後讓推論協調維持靜態。那正是 AutoTTS 證明可學習的層 —— 也是成本節省藏身處。
- 盯這個落進推論框架。 $40 的發現迴圈便宜到 vLLM/SGLang 式服務棧可以把學習到的 TTS controller 當功能出貨。若它們這麼做,手調 best-of-N 就成了 legacy。
被低估的角度:協調層是繼模型與 prompt 之後下一個被自動化的東西。 我們看著 prompt engineering 被系統化、模型選擇變成路由。Test-time 算力協調是推論棧裡最後一個手調層 —— AutoTTS 是個早期訊號,它也將變成學習到的政策,而非人類猜測。