Skip to content
AI-Daily-Builder

arXiv 2605.08083·2026-05-21 次瀏覽

AutoTTS —— LLM 代理用 $39.90 自己發現 test-time scaling 策略

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 等

AutoTTS 把 test-time scaling 重構成 controller-synthesis 問題:LLM 代理自己發現何時 branch、continue、probe、prune、stop —— 取代手調 best-of-N。整個發現迴圈花 $39.90 / 160 分鐘,在準確度-成本權衡上勝過手調基準。

arxiv.org/abs/2605.08083 ↗


AutoTTS(arXiv 2605.08083)攻擊每個跑推理模型團隊都會碰到的問題:每次查詢該花多少 test-time 算力、怎麼花? 今天那是手調的 —— 固定 best-of-N 取樣、靜態 tree search、某人挑的魔術數字。AutoTTS 讓配方本身變成 LLM 代理自動發現的東西。

重構

Test-time scaling(TTS)被重構成對預收集推理軌跡的 controller-synthesis 問題。學習到的 controller 在每一步決定要:

beta-參數化加上執行軌跡回饋讓發現迴圈高效。

頭條數字

整個策略發現過程花 $39.90 與 160 分鐘算力 —— 而發現的 controllers:

結果
vs 手設計基準在準確度-成本權衡上勝出
泛化轉移到 held-out 數學基準
模型規模跨不同模型大小有效

為什麼重要

多數 test-time 算力工作對每個任務手調一個推論配方。AutoTTS 把協調邏輯當成可搜尋,指向「自我改進的推論管線」 —— 該想多少的政策是學來的,不是寫死的。

近乎瑣碎的發現成本是真正的訊號:約 $40 一輪,這種 meta-最佳化便宜到能例行跑 —— 每產品、每任務類、每次模型升級 —— 而不是一次性研究產物。這直接連到 Recursive Superintelligence 論點:AI 最佳化自己的推論迴圈,成本低到變成預設而非實驗。

Practitioner note

對在生產跑推理模型的團隊:

被低估的角度:協調層是繼模型與 prompt 之後下一個被自動化的東西。 我們看著 prompt engineering 被系統化、模型選擇變成路由。Test-time 算力協調是推論棧裡最後一個手調層 —— AutoTTS 是個早期訊號,它也將變成學習到的政策,而非人類猜測。

請喝咖啡