arXiv 논문

최근 LLM 프런티어 논문 선별 및 실전 활용/스킵 가이드.

arXiv 2604.24763

2026-04-27

Tuna-2: pixel 임베딩이 멀티모달 이해에서 vision encoder를 이긴다

Zhiheng Liu, Weiming Ren, Xiaoke Huang

네이티브 통합 멀티모달 모델로, 이미지를 patch 임베딩으로 직접 인코딩합니다. VAE나 별도의 vision encoder가 없습니다. 스케일 업 시 세분화 인지에서 우세를 보입니다.

#multimodal#vision#architecture

arXiv 2604.22074

2026-04-23

결과 보상은 추론 과정의 검증 가능성이나 인과적 중요성을 보장하지 않는다

Qinan Yu, Alexa Tartaglini, Peter Hase

CIR(추론의 인과적 중요성)과 SR(추론의 충분성)이라는 두 가지 지표를 제안합니다. RLVR은 정확도를 개선하지만 CIR이나 SR은 반드시 개선하지는 않습니다.

#rlvr#reasoning#causality#safety

arXiv 2604.19295

2026-04-21

TEMPO: 대형 reasoning 모델을 위한 test-time training 확장

Qingyang Zhang, Xinke Kong, Haitao Wu

Test-time training 프레임워크로, policy는 라벨이 없는 문제 위에서 정제되고 critic은 라벨 데이터로 주기적으로 보정됩니다. OLMO3-7B는 AIME 2024에서 33.0%에서 51.1%로 상승했습니다.

#ttt#reasoning#rlvr

arXiv 2604.18788

2026-04-20

NPUMoE: Apple Silicon NPU에서 효율적인 MoE LLM 추론

Afsara Benazir, Felix Xiaozhu Lin

런타임이 오프라인 캘리브레이션, 정적 capacity tier, load-aware graph 상주를 통해 NPU 위 MoE의 부적합 문제를 해결합니다. M 시리즈 칩에서 지연 시간을 1.32~5.55배 줄였습니다.

#mlx#apple-silicon#moe#inference#on-device

arXiv 2604.16529

2026-04-16

에이전트 코딩을 위한 test-time compute 확장

Joongwon Kim, Wannan Yang, Kelvin Niu

장기 horizon 코딩 에이전트의 test-time scaling은 "샘플링 문제"가 아니라 "표현 문제"라고 주장합니다. Claude Opus 4.5는 SWE-Bench Verified에서 70.9%에서 77.6%로 상승했습니다.

#agents#ttc#coding#frontier

arXiv 2604.13120

2026-04-13

AgentForge: 실행 검증을 핵심으로 하는 멀티 에이전트 SWE 프레임워크

Rajesh Kumar, Waqar Ali, Junaid Ahmed

"실행 검증"을 일등 원칙으로 도입했습니다. 모든 코드 변경은 Docker sandbox에서 통과한 뒤에야 다음으로 전달됩니다. SWE-Bench Lite 40.0%를 달성했습니다.

#agents#swe#multi-agent#sandbox

arXiv 2604.12710

2026-04-13

LASA: 시맨틱 보틀넥 레이어에서 언어 독립 안전 정렬

Junxiao Yang, Haoran Liu, Jinzhe Tu

언어 중립적인 "시맨틱 보틀넥" 레이어를 식별했습니다. 정렬을 이 레이어에 앵커링하면 LLaMA-3.1-8B의 공격 성공률이 24.7%에서 2.8%로 낮아집니다.

#safety#multilingual#alignment#jailbreak

arXiv 2604.10261

2026-04-11

The Amazing Agent Race: 도구 호출은 강하지만 웹 내비게이션은 약하다

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

Wikipedia DAG 퍼즐로 벤치마크를 구성했습니다. 1,400 케이스를 세 가지 framework에서 돌린 결과 최고 시스템이 37.2%였고, 내비게이션 오류가 27~52%로 지배적인 반면 도구 호출 오류는 17% 미만이었습니다.

#agents#benchmark#navigation#tool-use