arXiv 2605.08083·2026-05-21 — 次浏览
AutoTTS —— LLM 代理用 $39.90 自己发现 test-time scaling 策略
Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 等
AutoTTS 把 test-time scaling 重构成 controller-synthesis 问题:LLM 代理自己发现何时 branch、continue、probe、prune、stop —— 取代手调 best-of-N。整个发现循环花 $39.90 / 160 分钟,在准确度-成本权衡上胜过手调基准。
AutoTTS(arXiv 2605.08083)攻击每个跑推理模型团队都会碰到的问题:每次查询该花多少 test-time 算力、怎么花? 今天那是手调的 —— 固定 best-of-N 采样、静态 tree search、某人挑的魔术数字。AutoTTS 让配方本身变成 LLM 代理自动发现的东西。
重构
Test-time scaling(TTS)被重构成对预收集推理轨迹的 controller-synthesis 问题。学习到的 controller 在每一步决定要:
- branch(探索多个延续)
- continue(延伸当前路径)
- probe(便宜的前瞻)
- prune(砍掉弱分支)
- stop(提交答案)
beta-参数化加上执行轨迹反馈让发现循环高效。
头条数字
整个策略发现过程花 $39.90 与 160 分钟算力 —— 而发现的 controllers:
| 结果 | |
|---|---|
| vs 手设计基准 | 在准确度-成本权衡上胜出 |
| 泛化 | 转移到 held-out 数学基准 |
| 模型规模 | 跨不同模型大小有效 |
为什么重要
多数 test-time 算力工作对每个任务手调一个推理配方。AutoTTS 把协调逻辑当成可搜索,指向「自我改进的推理管线」 —— 该想多少的策略是学来的,不是写死的。
近乎琐碎的发现成本是真正的信号:约 $40 一轮,这种 meta-优化便宜到能例行跑 —— 每产品、每任务类、每次模型升级 —— 而不是一次性研究产物。这直接连到 Recursive Superintelligence 论点:AI 优化自己的推理循环,成本低到变成预设而非实验。
Practitioner note
对在生产跑推理模型的团队:
- 检查你的 test-time 算力是否手调。 若你选 best-of-8 是因为「感觉对」,你很可能在准确度-成本曲线的错误点上。AutoTTS 式发现用经验找到那个点。
- 成本 lever 是每查询算力,而它被低度利用。 多数团队优化模型选择与 prompt,然后让推理协调维持静态。那正是 AutoTTS 证明可学习的层 —— 也是成本节省藏身处。
- 盯这个落进推理框架。 $40 的发现循环便宜到 vLLM/SGLang 式服务栈可以把学习到的 TTS controller 当功能出货。若它们这么做,手调 best-of-N 就成了 legacy。
被低估的角度:协调层是继模型与 prompt 之后下一个被自动化的东西。 我们看着 prompt engineering 被系统化、模型选择变成路由。Test-time 算力协调是推理栈里最后一个手调层 —— AutoTTS 是个早期信号,它也将变成学习到的策略,而非人类猜测。