arXiv 2604.24763
2026-04-27
Tuna-2:pixel embedding 在多模態理解上贏過 vision encoder
Zhiheng Liu, Weiming Ren, Xiaoke Huang
原生統一多模態模型,影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder。在規模化下細粒度感知獲勝。
精選近期 LLM 前沿論文,附上實戰筆記告訴你哪些值得用、哪些可略過。
arXiv 2604.24763
2026-04-27
Zhiheng Liu, Weiming Ren, Xiaoke Huang
原生統一多模態模型,影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder。在規模化下細粒度感知獲勝。
arXiv 2604.22074
2026-04-23
Qinan Yu, Alexa Tartaglini, Peter Hase
提出 CIR(推理因果重要性)與 SR(推理充分性)兩個指標。RLVR 改善正確率但未必改善 CIR 或 SR。
arXiv 2604.19295
2026-04-21
Qingyang Zhang, Xinke Kong, Haitao Wu
Test-time training 框架,policy 在未標註題目上精煉、critic 在標註資料上週期性校準。OLMO3-7B 在 AIME 2024 從 33.0% 升到 51.1%。
arXiv 2604.18788
2026-04-20
Afsara Benazir, Felix Xiaozhu Lin
Runtime 透過離線校準、靜態容量層級、load-aware graph 駐留處理 MoE 在 NPU 上的不適配。M 系列晶片上延遲降 1.32-5.55 倍。
arXiv 2604.16529
2026-04-16
Joongwon Kim, Wannan Yang, Kelvin Niu
主張長 horizon coding agent 的 test-time scaling 是「表示問題」而非「取樣問題」。Claude Opus 4.5 在 SWE-Bench Verified 從 70.9% 升到 77.6%。
arXiv 2604.13120
2026-04-13
Rajesh Kumar, Waqar Ali, Junaid Ahmed
把「執行驗證」當作一等原則:每次 code 變更都要先在 Docker sandbox 中運行通過才能傳遞。SWE-Bench Lite 達 40.0%。
arXiv 2604.12710
2026-04-13
Junxiao Yang, Haoran Liu, Jinzhe Tu
辨識出一個語言中性的「語意瓶頸」層。把對齊錨定在這層,LLaMA-3.1-8B 攻擊成功率從 24.7% 降到 2.8%。
arXiv 2604.10261
2026-04-11
Zae Myung Kim, Dongseok Lee, Jaehyung Kim
用 Wikipedia DAG 拼圖建立 benchmark。1,400 案例三套 framework 下最佳系統 37.2%。導航錯誤主導(27-52%),工具呼叫錯誤 <17%。