arXiv 2604.19295 · 2026-04-21

TEMPO：大規模 reasoning モデルのための test-time training スケーリング

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training フレームワーク。policy はラベルなし問題で精錬され、critic はラベル付きデータで周期的にキャリブレーションされる。OLMO3-7B は AIME 2024 で 33.0% から 51.1% に向上。

arxiv.org/abs/2604.19295 ↗

TEMPO は test-time training（TTT）フレームワークで、policy はラベルなし問題で精錬され、critic はラベル付きデータで周期的にキャリブレーションされます。全体は EM の形で形式化されています。

数字としては、OLMO3-7B が AIME 2024 で 33.0% から 51.1%、Qwen3-14B が 42.3% から 65.8% へ向上し、出力の多様性も保たれています。

実装ノート（私見）

TTT は推論時に実際にモデルパラメータを更新する手法で、長らく研究上の珍しい現象でしたが、こうした数字が出てきたことで、reasoning 能力向上の実用的なレバーになりつつあります。

開発者にとっては主に戦略的な問いです。オフラインのファインチューニングが妥当なのは何時か、本番でオンライン適応すべきなのは何時か。TEMPO が示唆するのは、答えが難しい推論タスク（数学、定理証明、複雑なコードレビュー）— つまり「誤答のコストが高い」タスクではオンライン側に振れていることです。低リスクで高スループットのワークでは、オフラインがコスト面で依然優勢です。