arXiv 2605.08083·2026-05-21 — 次瀏覽

AutoTTS —— LLM 代理用 $39.90 自己發現 test-time scaling 策略

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 等

AutoTTS 把 test-time scaling 重構成 controller-synthesis 問題：LLM 代理自己發現何時 branch、continue、probe、prune、stop —— 取代手調 best-of-N。整個發現迴圈花 $39.90 / 160 分鐘，在準確度-成本權衡上勝過手調基準。

arxiv.org/abs/2605.08083 ↗

AutoTTS（arXiv 2605.08083）攻擊每個跑推理模型團隊都會碰到的問題：每次查詢該花多少 test-time 算力、怎麼花？ 今天那是手調的 —— 固定 best-of-N 取樣、靜態 tree search、某人挑的魔術數字。AutoTTS 讓配方本身變成 LLM 代理自動發現的東西。

重構

Test-time scaling（TTS）被重構成對預收集推理軌跡的 controller-synthesis 問題。學習到的 controller 在每一步決定要：

branch（探索多個延續）
continue（延伸當前路徑）
probe（便宜的前瞻）
prune（砍掉弱分支）
stop（提交答案）

beta-參數化加上執行軌跡回饋讓發現迴圈高效。

頭條數字

整個策略發現過程花 $39.90 與 160 分鐘算力 —— 而發現的 controllers：

	結果
vs 手設計基準	在準確度-成本權衡上勝出
泛化	轉移到 held-out 數學基準
模型規模	跨不同模型大小有效

為什麼重要

多數 test-time 算力工作對每個任務手調一個推論配方。AutoTTS 把協調邏輯當成可搜尋，指向「自我改進的推論管線」 —— 該想多少的政策是學來的，不是寫死的。

近乎瑣碎的發現成本是真正的訊號：約 $40 一輪，這種 meta-最佳化便宜到能例行跑 —— 每產品、每任務類、每次模型升級 —— 而不是一次性研究產物。這直接連到 Recursive Superintelligence 論點：AI 最佳化自己的推論迴圈，成本低到變成預設而非實驗。

Practitioner note

對在生產跑推理模型的團隊：

檢查你的 test-time 算力是否手調。 若你選 best-of-8 是因為「感覺對」，你很可能在準確度-成本曲線的錯誤點上。AutoTTS 式發現用經驗找到那個點。
成本 lever 是每查詢算力，而它被低度利用。 多數團隊最佳化模型選擇與 prompt，然後讓推論協調維持靜態。那正是 AutoTTS 證明可學習的層 —— 也是成本節省藏身處。
盯這個落進推論框架。 $40 的發現迴圈便宜到 vLLM/SGLang 式服務棧可以把學習到的 TTS controller 當功能出貨。若它們這麼做，手調 best-of-N 就成了 legacy。

被低估的角度：協調層是繼模型與 prompt 之後下一個被自動化的東西。 我們看著 prompt engineering 被系統化、模型選擇變成路由。Test-time 算力協調是推論棧裡最後一個手調層 —— AutoTTS 是個早期訊號，它也將變成學習到的政策，而非人類猜測。