Builder Daily

arXiv 2604.18788 · 2026-04-20

NPUMoE:Apple Silicon NPU 上的高效 MoE LLM 推论

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

Runtime 通过离线校准、静态容量层级、load-aware graph 驻留处理 MoE 在 NPU 上的不适配。M 系列芯片上延迟降 1.32-5.55 倍。

arxiv.org/abs/2604.18788 ↗


NPUMoE 是个 runtime,处理 MoE 与 NPU 硬件不太适配的问题(动态路由产出动态形状、小型 expert kernel 启动开销高)。流程:离线校准 expert 容量与热度、静态容量层级、grouped expert execution、load-aware graph 驻留。

Apple M 系列三个 MoE LLM、四个长 context workload 的数字:延迟降 1.32-5.55 倍,能效改善 1.81-7.37 倍,CPU cycles 减少 1.78-5.54 倍。

实战笔记(我的)

如果你在 Apple Silicon 跑本地 LLM — 这个站的很多读者都是 — 这篇实实在在有用。本站 agent 后端的 Mac mini + LiteLLM 路由 Qwen LAN 设定正好落在 NPUMoE 目标范围内。

实务问题是:NPUMoE 的技术何时(或是否)会落到主流 runtime(mlx-lm、llama.cpp Metal backend、Ollama)。观察这些项目接下来几个 release — 加速幅度够大,竞争 runtime 会很快吸收。

请喝咖啡