arXiv 2604.19295 · 2026-04-21
TEMPO:为大型 reasoning 模型扩展 test-time training
Qingyang Zhang, Xinke Kong, Haitao Wu
Test-time training 框架,policy 在未标注题目上精炼、critic 在标注数据上周期性校准。OLMO3-7B 在 AIME 2024 从 33.0% 升到 51.1%。
TEMPO 是个 test-time training(TTT)框架,policy 在未标注题目上精炼,critic 在标注数据上周期性校准,整体用 EM 形式化。
数字:OLMO3-7B 在 AIME 2024 从 33.0% 升到 51.1%,Qwen3-14B 从 42.3% 升到 65.8%,同时保持输出多样性。
实战笔记(我的)
TTT — 在推论时实际更新模型参数 — 多年来都是研究奇珍。有了这些数字,它正成为 reasoning 增益的实用杠杆。
对开发者主要是个战略问题:什么时候 offline 微调更合理 vs. production 中 online 适配?TEMPO 暗示答案在硬推理任务(数学、定理证明、复杂 code review)上正向 online 偏移 — 那些「答错的代价高」的任务。低风险高吞吐量工作,offline 在成本上仍胜出。