arXiv 论文

精选近期 LLM 前沿论文，附上实战笔记告诉你哪些值得用、哪些可略过。

arXiv 2604.24763

2026-04-27

Tuna-2：pixel embedding 在多模态理解上赢过 vision encoder

Zhiheng Liu, Weiming Ren, Xiaoke Huang

原生统一多模态模型，图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder。在规模化下细粒度感知获胜。

#multimodal#vision#architecture

arXiv 2604.22074

2026-04-23

结果型奖励不保证推理过程可验证或因果重要

Qinan Yu, Alexa Tartaglini, Peter Hase

提出 CIR（推理因果重要性）与 SR（推理充分性）两个指标。RLVR 改善正确率但未必改善 CIR 或 SR。

#rlvr#reasoning#causality#safety

arXiv 2604.19295

2026-04-21

TEMPO：为大型 reasoning 模型扩展 test-time training

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 框架，policy 在未标注题目上精炼、critic 在标注数据上周期性校准。OLMO3-7B 在 AIME 2024 从 33.0% 升到 51.1%。

#ttt#reasoning#rlvr

arXiv 2604.18788

2026-04-20

NPUMoE：Apple Silicon NPU 上的高效 MoE LLM 推论

Afsara Benazir, Felix Xiaozhu Lin

Runtime 通过离线校准、静态容量层级、load-aware graph 驻留处理 MoE 在 NPU 上的不适配。M 系列芯片上延迟降 1.32-5.55 倍。

#mlx#apple-silicon#moe#inference#on-device

arXiv 2604.16529

2026-04-16

为 agentic coding 扩展 test-time compute

Joongwon Kim, Wannan Yang, Kelvin Niu

主张长 horizon coding agent 的 test-time scaling 是「表示问题」而非「采样问题」。Claude Opus 4.5 在 SWE-Bench Verified 从 70.9% 升到 77.6%。

#agents#ttc#coding#frontier

arXiv 2604.13120

2026-04-13

AgentForge：以执行验证为核心的多代理 SWE 框架

Rajesh Kumar, Waqar Ali, Junaid Ahmed

把「执行验证」当作一等原则：每次 code 变更都要先在 Docker sandbox 中运行通过才能传递。SWE-Bench Lite 达 40.0%。

#agents#swe#multi-agent#sandbox

arXiv 2604.12710

2026-04-13

LASA：在语义瓶颈层做语言无关的安全对齐

Junxiao Yang, Haoran Liu, Jinzhe Tu

辨识出一个语言中性的「语义瓶颈」层。把对齐锚定在这层，LLaMA-3.1-8B 攻击成功率从 24.7% 降到 2.8%。

#safety#multilingual#alignment#jailbreak

arXiv 2604.10261

2026-04-11

The Amazing Agent Race：工具调用强，网页导航弱

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

用 Wikipedia DAG 拼图建立 benchmark。1,400 案例三套 framework 下最佳系统 37.2%。导航错误主导（27-52%），工具调用错误 <17%。

#agents#benchmark#navigation#tool-use