arXiv 2605.08083·2026-05-21 — 次浏览

AutoTTS —— LLM 代理用 $39.90 自己发现 test-time scaling 策略

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 等

AutoTTS 把 test-time scaling 重构成 controller-synthesis 问题：LLM 代理自己发现何时 branch、continue、probe、prune、stop —— 取代手调 best-of-N。整个发现循环花 $39.90 / 160 分钟，在准确度-成本权衡上胜过手调基准。

arxiv.org/abs/2605.08083 ↗

AutoTTS（arXiv 2605.08083）攻击每个跑推理模型团队都会碰到的问题：每次查询该花多少 test-time 算力、怎么花？ 今天那是手调的 —— 固定 best-of-N 采样、静态 tree search、某人挑的魔术数字。AutoTTS 让配方本身变成 LLM 代理自动发现的东西。

重构

Test-time scaling（TTS）被重构成对预收集推理轨迹的 controller-synthesis 问题。学习到的 controller 在每一步决定要：

branch（探索多个延续）
continue（延伸当前路径）
probe（便宜的前瞻）
prune（砍掉弱分支）
stop（提交答案）

beta-参数化加上执行轨迹反馈让发现循环高效。

头条数字

整个策略发现过程花 $39.90 与 160 分钟算力 —— 而发现的 controllers：

	结果
vs 手设计基准	在准确度-成本权衡上胜出
泛化	转移到 held-out 数学基准
模型规模	跨不同模型大小有效

为什么重要

多数 test-time 算力工作对每个任务手调一个推理配方。AutoTTS 把协调逻辑当成可搜索，指向「自我改进的推理管线」 —— 该想多少的策略是学来的，不是写死的。

近乎琐碎的发现成本是真正的信号：约 $40 一轮，这种 meta-优化便宜到能例行跑 —— 每产品、每任务类、每次模型升级 —— 而不是一次性研究产物。这直接连到 Recursive Superintelligence 论点：AI 优化自己的推理循环，成本低到变成预设而非实验。

Practitioner note

对在生产跑推理模型的团队：

检查你的 test-time 算力是否手调。 若你选 best-of-8 是因为「感觉对」，你很可能在准确度-成本曲线的错误点上。AutoTTS 式发现用经验找到那个点。
成本 lever 是每查询算力，而它被低度利用。 多数团队优化模型选择与 prompt，然后让推理协调维持静态。那正是 AutoTTS 证明可学习的层 —— 也是成本节省藏身处。
盯这个落进推理框架。 $40 的发现循环便宜到 vLLM/SGLang 式服务栈可以把学习到的 TTS controller 当功能出货。若它们这么做，手调 best-of-N 就成了 legacy。

被低估的角度：协调层是继模型与 prompt 之后下一个被自动化的东西。 我们看着 prompt engineering 被系统化、模型选择变成路由。Test-time 算力协调是推理栈里最后一个手调层 —— AutoTTS 是个早期信号，它也将变成学习到的策略，而非人类猜测。