arXiv 2604.24763
2026-04-27
Tuna-2:pixel embedding がマルチモーダル理解で vision encoder を凌駕
Zhiheng Liu, Weiming Ren, Xiaoke Huang
ネイティブな統一マルチモーダルモデル。画像は patch embedding で直接エンコードされ、VAE も独立した vision encoder も持たない。スケール時の細粒度知覚で勝利。
最近の LLM フロンティア論文をピックアップし、実装上の取捨選択を解説します。
arXiv 2604.24763
2026-04-27
Zhiheng Liu, Weiming Ren, Xiaoke Huang
ネイティブな統一マルチモーダルモデル。画像は patch embedding で直接エンコードされ、VAE も独立した vision encoder も持たない。スケール時の細粒度知覚で勝利。
arXiv 2604.22074
2026-04-23
Qinan Yu, Alexa Tartaglini, Peter Hase
CIR(推論の因果的重要性)と SR(推論の充足性)の 2 指標を提案。RLVR は正答率を上げるが、CIR や SR を必ずしも上げない。
arXiv 2604.19295
2026-04-21
Qingyang Zhang, Xinke Kong, Haitao Wu
Test-time training フレームワーク。policy はラベルなし問題で精錬され、critic はラベル付きデータで周期的にキャリブレーションされる。OLMO3-7B は AIME 2024 で 33.0% から 51.1% に向上。
arXiv 2604.18788
2026-04-20
Afsara Benazir, Felix Xiaozhu Lin
オフラインキャリブレーション、静的容量階層、load-aware なグラフ常駐により、NPU 上の MoE 不適合を解消するランタイム。M シリーズチップ上でレイテンシ 1.32〜5.55 倍低減。
arXiv 2604.16529
2026-04-16
Joongwon Kim, Wannan Yang, Kelvin Niu
長 horizon コーディングエージェントの test-time scaling は「サンプリング問題」ではなく「表現問題」だと主張。Claude Opus 4.5 は SWE-Bench Verified で 70.9% から 77.6% に向上。
arXiv 2604.13120
2026-04-13
Rajesh Kumar, Waqar Ali, Junaid Ahmed
「実行検証」を第一級の原則として扱う。コード変更は次のエージェントに渡す前に Docker サンドボックスで実行通過しなければならない。SWE-Bench Lite で 40.0%。
arXiv 2604.12710
2026-04-13
Junxiao Yang, Haoran Liu, Jinzhe Tu
言語中立の「意味的ボトルネック」層を特定。この層にアライメントをアンカーすると、LLaMA-3.1-8B の攻撃成功率が 24.7% から 2.8% に低下。
arXiv 2604.10261
2026-04-11
Zae Myung Kim, Dongseok Lee, Jaehyung Kim
Wikipedia DAG パズルでベンチマークを構築。1,400 ケース 3 種のフレームワーク下、最良システムでも 37.2%。ナビゲーション誤りが支配的(27〜52%)、ツール呼び出し誤りは 17% 未満。