arXiv 2604.24763
2026-04-27
Tuna-2: pixel 임베딩이 멀티모달 이해에서 vision encoder를 이긴다
Zhiheng Liu, Weiming Ren, Xiaoke Huang
네이티브 통합 멀티모달 모델로, 이미지를 patch 임베딩으로 직접 인코딩합니다. VAE나 별도의 vision encoder가 없습니다. 스케일 업 시 세분화 인지에서 우세를 보입니다.
최근 LLM 프런티어 논문 선별 및 실전 활용/스킵 가이드.
arXiv 2604.24763
2026-04-27
Zhiheng Liu, Weiming Ren, Xiaoke Huang
네이티브 통합 멀티모달 모델로, 이미지를 patch 임베딩으로 직접 인코딩합니다. VAE나 별도의 vision encoder가 없습니다. 스케일 업 시 세분화 인지에서 우세를 보입니다.
arXiv 2604.22074
2026-04-23
Qinan Yu, Alexa Tartaglini, Peter Hase
CIR(추론의 인과적 중요성)과 SR(추론의 충분성)이라는 두 가지 지표를 제안합니다. RLVR은 정확도를 개선하지만 CIR이나 SR은 반드시 개선하지는 않습니다.
arXiv 2604.19295
2026-04-21
Qingyang Zhang, Xinke Kong, Haitao Wu
Test-time training 프레임워크로, policy는 라벨이 없는 문제 위에서 정제되고 critic은 라벨 데이터로 주기적으로 보정됩니다. OLMO3-7B는 AIME 2024에서 33.0%에서 51.1%로 상승했습니다.
arXiv 2604.18788
2026-04-20
Afsara Benazir, Felix Xiaozhu Lin
런타임이 오프라인 캘리브레이션, 정적 capacity tier, load-aware graph 상주를 통해 NPU 위 MoE의 부적합 문제를 해결합니다. M 시리즈 칩에서 지연 시간을 1.32~5.55배 줄였습니다.
arXiv 2604.16529
2026-04-16
Joongwon Kim, Wannan Yang, Kelvin Niu
장기 horizon 코딩 에이전트의 test-time scaling은 "샘플링 문제"가 아니라 "표현 문제"라고 주장합니다. Claude Opus 4.5는 SWE-Bench Verified에서 70.9%에서 77.6%로 상승했습니다.
arXiv 2604.13120
2026-04-13
Rajesh Kumar, Waqar Ali, Junaid Ahmed
"실행 검증"을 일등 원칙으로 도입했습니다. 모든 코드 변경은 Docker sandbox에서 통과한 뒤에야 다음으로 전달됩니다. SWE-Bench Lite 40.0%를 달성했습니다.
arXiv 2604.12710
2026-04-13
Junxiao Yang, Haoran Liu, Jinzhe Tu
언어 중립적인 "시맨틱 보틀넥" 레이어를 식별했습니다. 정렬을 이 레이어에 앵커링하면 LLaMA-3.1-8B의 공격 성공률이 24.7%에서 2.8%로 낮아집니다.
arXiv 2604.10261
2026-04-11
Zae Myung Kim, Dongseok Lee, Jaehyung Kim
Wikipedia DAG 퍼즐로 벤치마크를 구성했습니다. 1,400 케이스를 세 가지 framework에서 돌린 결과 최고 시스템이 37.2%였고, 내비게이션 오류가 27~52%로 지배적인 반면 도구 호출 오류는 17% 미만이었습니다.