arXiv 2604.18788 · 2026-04-20

NPUMoE: Apple Silicon NPU에서 효율적인 MoE LLM 추론

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

런타임이 오프라인 캘리브레이션, 정적 capacity tier, load-aware graph 상주를 통해 NPU 위 MoE의 부적합 문제를 해결합니다. M 시리즈 칩에서 지연 시간을 1.32~5.55배 줄였습니다.

arxiv.org/abs/2604.18788 ↗

NPUMoE는 MoE와 NPU 하드웨어가 잘 맞지 않는 문제(동적 라우팅이 만들어내는 동적 shape, 작은 expert kernel의 높은 launch 오버헤드)를 다루는 런타임입니다. 흐름은 다음과 같습니다. expert capacity와 핫니스를 오프라인 캘리브레이션, 정적 capacity tier, grouped expert execution, load-aware graph 상주.

Apple M 시리즈에서 세 가지 MoE LLM과 네 가지 long-context 워크로드 수치는 이렇습니다. 지연 시간 1.32~~5.55배 감소, 에너지 효율 1.81~~7.37배 개선, CPU 사이클 1.78~5.54배 감소.

실전 노트(개인적인)

Apple Silicon에서 로컬 LLM을 운영한다면(이 사이트의 많은 독자가 그렇습니다), 이 논문은 실질적으로 유용합니다. 본 사이트의 에이전트 백엔드인 Mac mini + LiteLLM 라우팅으로 LAN의 Qwen으로 보내는 구성은 정확히 NPUMoE의 타깃 범위에 들어갑니다.

실무적인 문제는 이것입니다. NPUMoE의 기술이 언제(혹은 그렇게 될 것인지) 주류 런타임(mlx-lm, llama.cpp Metal backend, Ollama)에 들어올 것인가. 이들 프로젝트의 향후 몇 release를 지켜보세요. 가속 폭이 크다면 경쟁 런타임이 빠르게 흡수할 것입니다.