Builder Daily

arXiv 2604.19295 · 2026-04-21

TEMPO:為大型 reasoning 模型擴展 test-time training

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 框架,policy 在未標註題目上精煉、critic 在標註資料上週期性校準。OLMO3-7B 在 AIME 2024 從 33.0% 升到 51.1%。

arxiv.org/abs/2604.19295 ↗


TEMPO 是個 test-time training(TTT)框架,policy 在未標註題目上精煉,critic 在標註資料上週期性校準,整體用 EM 形式化。

數字:OLMO3-7B 在 AIME 2024 從 33.0% 升到 51.1%,Qwen3-14B 從 42.3% 升到 65.8%,同時保持輸出多樣性。

實戰筆記(我的)

TTT — 在推論時實際更新模型參數 — 多年來都是研究奇珍。有了這些數字,它正成為 reasoning 增益的實用槓桿。

對開發者主要是個戰略問題:什麼時候 offline 微調更合理 vs. production 中 online 調適?TEMPO 暗示答案在硬推理任務(數學、定理證明、複雜 code review)上正向 online 偏移 — 那些「答錯的代價高」的任務。低風險高吞吐量工作,offline 在成本上仍勝出。

請喝咖啡