arXiv 2604.18788 · 2026-04-20

NPUMoE：Apple Silicon NPU 上的高效 MoE LLM 推论

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

Runtime 通过离线校准、静态容量层级、load-aware graph 驻留处理 MoE 在 NPU 上的不适配。M 系列芯片上延迟降 1.32-5.55 倍。

NPUMoE 是个 runtime，处理 MoE 与 NPU 硬件不太适配的问题（动态路由产出动态形状、小型 expert kernel 启动开销高）。流程：离线校准 expert 容量与热度、静态容量层级、grouped expert execution、load-aware graph 驻留。

Apple M 系列三个 MoE LLM、四个长 context workload 的数字：延迟降 1.32-5.55 倍，能效改善 1.81-7.37 倍，CPU cycles 减少 1.78-5.54 倍。

实战笔记（我的）

如果你在 Apple Silicon 跑本地 LLM — 这个站的很多读者都是 — 这篇实实在在有用。本站 agent 后端的 Mac mini + LiteLLM 路由 Qwen LAN 设定正好落在 NPUMoE 目标范围内。

实务问题是：NPUMoE 的技术何时（或是否）会落到主流 runtime（mlx-lm、llama.cpp Metal backend、Ollama）。观察这些项目接下来几个 release — 加速幅度够大，竞争 runtime 会很快吸收。