arXiv 2604.19295 · 2026-04-21

TEMPO：為大型 reasoning 模型擴展 test-time training

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 框架，policy 在未標註題目上精煉、critic 在標註資料上週期性校準。OLMO3-7B 在 AIME 2024 從 33.0% 升到 51.1%。

arxiv.org/abs/2604.19295 ↗

TEMPO 是個 test-time training（TTT）框架，policy 在未標註題目上精煉，critic 在標註資料上週期性校準，整體用 EM 形式化。

數字：OLMO3-7B 在 AIME 2024 從 33.0% 升到 51.1%，Qwen3-14B 從 42.3% 升到 65.8%，同時保持輸出多樣性。

實戰筆記（我的）

TTT — 在推論時實際更新模型參數 — 多年來都是研究奇珍。有了這些數字，它正成為 reasoning 增益的實用槓桿。

對開發者主要是個戰略問題：什麼時候 offline 微調更合理 vs. production 中 online 調適？TEMPO 暗示答案在硬推理任務（數學、定理證明、複雜 code review）上正向 online 偏移 — 那些「答錯的代價高」的任務。低風險高吞吐量工作，offline 在成本上仍勝出。