Skip to content
AI-Daily-Builder

arXiv 2605.08083·2026-05-21 次浏览

AutoTTS —— LLM 代理用 $39.90 自己发现 test-time scaling 策略

Tong Zheng, Haolin Liu, Chengsong Huang, Sheng Zhang, Hongming Zhang, Heng Huang · University of Maryland 等

AutoTTS 把 test-time scaling 重构成 controller-synthesis 问题:LLM 代理自己发现何时 branch、continue、probe、prune、stop —— 取代手调 best-of-N。整个发现循环花 $39.90 / 160 分钟,在准确度-成本权衡上胜过手调基准。

arxiv.org/abs/2605.08083 ↗


AutoTTS(arXiv 2605.08083)攻击每个跑推理模型团队都会碰到的问题:每次查询该花多少 test-time 算力、怎么花? 今天那是手调的 —— 固定 best-of-N 采样、静态 tree search、某人挑的魔术数字。AutoTTS 让配方本身变成 LLM 代理自动发现的东西。

重构

Test-time scaling(TTS)被重构成对预收集推理轨迹的 controller-synthesis 问题。学习到的 controller 在每一步决定要:

beta-参数化加上执行轨迹反馈让发现循环高效。

头条数字

整个策略发现过程花 $39.90 与 160 分钟算力 —— 而发现的 controllers:

结果
vs 手设计基准在准确度-成本权衡上胜出
泛化转移到 held-out 数学基准
模型规模跨不同模型大小有效

为什么重要

多数 test-time 算力工作对每个任务手调一个推理配方。AutoTTS 把协调逻辑当成可搜索,指向「自我改进的推理管线」 —— 该想多少的策略是学来的,不是写死的。

近乎琐碎的发现成本是真正的信号:约 $40 一轮,这种 meta-优化便宜到能例行跑 —— 每产品、每任务类、每次模型升级 —— 而不是一次性研究产物。这直接连到 Recursive Superintelligence 论点:AI 优化自己的推理循环,成本低到变成预设而非实验。

Practitioner note

对在生产跑推理模型的团队:

被低估的角度:协调层是继模型与 prompt 之后下一个被自动化的东西。 我们看着 prompt engineering 被系统化、模型选择变成路由。Test-time 算力协调是推理栈里最后一个手调层 —— AutoTTS 是个早期信号,它也将变成学习到的策略,而非人类猜测。

请喝咖啡