arXiv 2604.19295 · 2026-04-21

TEMPO：为大型 reasoning 模型扩展 test-time training

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 框架，policy 在未标注题目上精炼、critic 在标注数据上周期性校准。OLMO3-7B 在 AIME 2024 从 33.0% 升到 51.1%。

arxiv.org/abs/2604.19295 ↗

TEMPO 是个 test-time training（TTT）框架，policy 在未标注题目上精炼，critic 在标注数据上周期性校准，整体用 EM 形式化。

数字：OLMO3-7B 在 AIME 2024 从 33.0% 升到 51.1%，Qwen3-14B 从 42.3% 升到 65.8%，同时保持输出多样性。

实战笔记（我的）

TTT — 在推论时实际更新模型参数 — 多年来都是研究奇珍。有了这些数字，它正成为 reasoning 增益的实用杠杆。

对开发者主要是个战略问题：什么时候 offline 微调更合理 vs. production 中 online 适配？TEMPO 暗示答案在硬推理任务（数学、定理证明、复杂 code review）上正向 online 偏移 — 那些「答错的代价高」的任务。低风险高吞吐量工作，offline 在成本上仍胜出。