arXiv 論文

最近の LLM フロンティア論文をピックアップし、実装上の取捨選択を解説します。

arXiv 2604.24763

2026-04-27

Tuna-2：pixel embedding がマルチモーダル理解で vision encoder を凌駕

Zhiheng Liu, Weiming Ren, Xiaoke Huang

ネイティブな統一マルチモーダルモデル。画像は patch embedding で直接エンコードされ、VAE も独立した vision encoder も持たない。スケール時の細粒度知覚で勝利。

#multimodal#vision#architecture

arXiv 2604.22074

2026-04-23

結果型報酬は推論過程の検証可能性や因果的重要性を保証しない

Qinan Yu, Alexa Tartaglini, Peter Hase

CIR（推論の因果的重要性）と SR（推論の充足性）の 2 指標を提案。RLVR は正答率を上げるが、CIR や SR を必ずしも上げない。

#rlvr#reasoning#causality#safety

arXiv 2604.19295

2026-04-21

TEMPO：大規模 reasoning モデルのための test-time training スケーリング

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training フレームワーク。policy はラベルなし問題で精錬され、critic はラベル付きデータで周期的にキャリブレーションされる。OLMO3-7B は AIME 2024 で 33.0% から 51.1% に向上。

#ttt#reasoning#rlvr

arXiv 2604.18788

2026-04-20

NPUMoE：Apple Silicon NPU 上の効率的な MoE LLM 推論

Afsara Benazir, Felix Xiaozhu Lin

オフラインキャリブレーション、静的容量階層、load-aware なグラフ常駐により、NPU 上の MoE 不適合を解消するランタイム。M シリーズチップ上でレイテンシ 1.32〜5.55 倍低減。

#mlx#apple-silicon#moe#inference#on-device

arXiv 2604.16529

2026-04-16

エージェンティックコーディングのための test-time compute スケーリング

Joongwon Kim, Wannan Yang, Kelvin Niu

長 horizon コーディングエージェントの test-time scaling は「サンプリング問題」ではなく「表現問題」だと主張。Claude Opus 4.5 は SWE-Bench Verified で 70.9% から 77.6% に向上。

#agents#ttc#coding#frontier

arXiv 2604.13120

2026-04-13

AgentForge：実行検証を中核に据えるマルチエージェント SWE フレームワーク

Rajesh Kumar, Waqar Ali, Junaid Ahmed

「実行検証」を第一級の原則として扱う。コード変更は次のエージェントに渡す前に Docker サンドボックスで実行通過しなければならない。SWE-Bench Lite で 40.0%。

#agents#swe#multi-agent#sandbox

arXiv 2604.12710

2026-04-13

LASA：意味的ボトルネック層で言語非依存の安全性アライメント

Junxiao Yang, Haoran Liu, Jinzhe Tu

言語中立の「意味的ボトルネック」層を特定。この層にアライメントをアンカーすると、LLaMA-3.1-8B の攻撃成功率が 24.7% から 2.8% に低下。

#safety#multilingual#alignment#jailbreak

arXiv 2604.10261

2026-04-11

The Amazing Agent Race：ツール呼び出しは強く、Web ナビゲーションは弱い

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

Wikipedia DAG パズルでベンチマークを構築。1,400 ケース 3 種のフレームワーク下、最良システムでも 37.2%。ナビゲーション誤りが支配的（27〜52%）、ツール呼び出し誤りは 17% 未満。

#agents#benchmark#navigation#tool-use