arXiv 2604.19295 · 2026-04-21
TEMPO:大規模 reasoning モデルのための test-time training スケーリング
Qingyang Zhang, Xinke Kong, Haitao Wu
Test-time training フレームワーク。policy はラベルなし問題で精錬され、critic はラベル付きデータで周期的にキャリブレーションされる。OLMO3-7B は AIME 2024 で 33.0% から 51.1% に向上。
TEMPO は test-time training(TTT)フレームワークで、policy はラベルなし問題で精錬され、critic はラベル付きデータで周期的にキャリブレーションされます。全体は EM の形で形式化されています。
数字としては、OLMO3-7B が AIME 2024 で 33.0% から 51.1%、Qwen3-14B が 42.3% から 65.8% へ向上し、出力の多様性も保たれています。
実装ノート(私見)
TTT は推論時に実際にモデルパラメータを更新する手法で、長らく研究上の珍しい現象でしたが、こうした数字が出てきたことで、reasoning 能力向上の実用的なレバーになりつつあります。
開発者にとっては主に戦略的な問いです。オフラインのファインチューニングが妥当なのは何時か、本番でオンライン適応すべきなのは何時か。TEMPO が示唆するのは、答えが難しい推論タスク(数学、定理証明、複雑なコードレビュー)— つまり「誤答のコストが高い」タスクではオンライン側に振れていることです。低リスクで高スループットのワークでは、オフラインがコスト面で依然優勢です。