arXiv 論文

精選近期 LLM 前沿論文，附上實戰筆記告訴你哪些值得用、哪些可略過。

arXiv 2604.24763

2026-04-27

Tuna-2：pixel embedding 在多模態理解上贏過 vision encoder

Zhiheng Liu, Weiming Ren, Xiaoke Huang

原生統一多模態模型，影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder。在規模化下細粒度感知獲勝。

#multimodal#vision#architecture

arXiv 2604.22074

2026-04-23

結果型獎勵不保證推理過程可驗證或因果重要

Qinan Yu, Alexa Tartaglini, Peter Hase

提出 CIR（推理因果重要性）與 SR（推理充分性）兩個指標。RLVR 改善正確率但未必改善 CIR 或 SR。

#rlvr#reasoning#causality#safety

arXiv 2604.19295

2026-04-21

TEMPO：為大型 reasoning 模型擴展 test-time training

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 框架，policy 在未標註題目上精煉、critic 在標註資料上週期性校準。OLMO3-7B 在 AIME 2024 從 33.0% 升到 51.1%。

#ttt#reasoning#rlvr

arXiv 2604.18788

2026-04-20

NPUMoE：Apple Silicon NPU 上的高效 MoE LLM 推論

Afsara Benazir, Felix Xiaozhu Lin

Runtime 透過離線校準、靜態容量層級、load-aware graph 駐留處理 MoE 在 NPU 上的不適配。M 系列晶片上延遲降 1.32-5.55 倍。

#mlx#apple-silicon#moe#inference#on-device

arXiv 2604.16529

2026-04-16

為 agentic coding 擴展 test-time compute

Joongwon Kim, Wannan Yang, Kelvin Niu

主張長 horizon coding agent 的 test-time scaling 是「表示問題」而非「取樣問題」。Claude Opus 4.5 在 SWE-Bench Verified 從 70.9% 升到 77.6%。

#agents#ttc#coding#frontier

arXiv 2604.13120

2026-04-13

AgentForge：以執行驗證為核心的多代理 SWE 框架

Rajesh Kumar, Waqar Ali, Junaid Ahmed

把「執行驗證」當作一等原則：每次 code 變更都要先在 Docker sandbox 中運行通過才能傳遞。SWE-Bench Lite 達 40.0%。

#agents#swe#multi-agent#sandbox

arXiv 2604.12710

2026-04-13

LASA：在語意瓶頸層做語言無關的安全對齊

Junxiao Yang, Haoran Liu, Jinzhe Tu

辨識出一個語言中性的「語意瓶頸」層。把對齊錨定在這層，LLaMA-3.1-8B 攻擊成功率從 24.7% 降到 2.8%。

#safety#multilingual#alignment#jailbreak

arXiv 2604.10261

2026-04-11

The Amazing Agent Race：工具呼叫強，網頁導航弱

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

用 Wikipedia DAG 拼圖建立 benchmark。1,400 案例三套 framework 下最佳系統 37.2%。導航錯誤主導（27-52%），工具呼叫錯誤 <17%。

#agents#benchmark#navigation#tool-use