arXiv 2604.24763
2026-04-27
Tuna-2:pixel embedding 在多模态理解上赢过 vision encoder
Zhiheng Liu, Weiming Ren, Xiaoke Huang
原生统一多模态模型,图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder。在规模化下细粒度感知获胜。
精选近期 LLM 前沿论文,附上实战笔记告诉你哪些值得用、哪些可略过。
arXiv 2604.24763
2026-04-27
Zhiheng Liu, Weiming Ren, Xiaoke Huang
原生统一多模态模型,图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder。在规模化下细粒度感知获胜。
arXiv 2604.22074
2026-04-23
Qinan Yu, Alexa Tartaglini, Peter Hase
提出 CIR(推理因果重要性)与 SR(推理充分性)两个指标。RLVR 改善正确率但未必改善 CIR 或 SR。
arXiv 2604.19295
2026-04-21
Qingyang Zhang, Xinke Kong, Haitao Wu
Test-time training 框架,policy 在未标注题目上精炼、critic 在标注数据上周期性校准。OLMO3-7B 在 AIME 2024 从 33.0% 升到 51.1%。
arXiv 2604.18788
2026-04-20
Afsara Benazir, Felix Xiaozhu Lin
Runtime 通过离线校准、静态容量层级、load-aware graph 驻留处理 MoE 在 NPU 上的不适配。M 系列芯片上延迟降 1.32-5.55 倍。
arXiv 2604.16529
2026-04-16
Joongwon Kim, Wannan Yang, Kelvin Niu
主张长 horizon coding agent 的 test-time scaling 是「表示问题」而非「采样问题」。Claude Opus 4.5 在 SWE-Bench Verified 从 70.9% 升到 77.6%。
arXiv 2604.13120
2026-04-13
Rajesh Kumar, Waqar Ali, Junaid Ahmed
把「执行验证」当作一等原则:每次 code 变更都要先在 Docker sandbox 中运行通过才能传递。SWE-Bench Lite 达 40.0%。
arXiv 2604.12710
2026-04-13
Junxiao Yang, Haoran Liu, Jinzhe Tu
辨识出一个语言中性的「语义瓶颈」层。把对齐锚定在这层,LLaMA-3.1-8B 攻击成功率从 24.7% 降到 2.8%。
arXiv 2604.10261
2026-04-11
Zae Myung Kim, Dongseok Lee, Jaehyung Kim
用 Wikipedia DAG 拼图建立 benchmark。1,400 案例三套 framework 下最佳系统 37.2%。导航错误主导(27-52%),工具调用错误 <17%。