arXiv 2604.18788 · 2026-04-20

NPUMoE：Apple Silicon NPU 上的高效 MoE LLM 推論

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

Runtime 透過離線校準、靜態容量層級、load-aware graph 駐留處理 MoE 在 NPU 上的不適配。M 系列晶片上延遲降 1.32-5.55 倍。

NPUMoE 是個 runtime，處理 MoE 與 NPU 硬體不太適配的問題（動態路由產出動態形狀、小型 expert kernel 啟動開銷高）。流程：離線校準 expert 容量與熱度、靜態容量層級、grouped expert execution、load-aware graph 駐留。

Apple M 系列三個 MoE LLM、四個長 context workload 的數字：延遲降 1.32-5.55 倍，能效改善 1.81-7.37 倍，CPU cycles 減少 1.78-5.54 倍。

實戰筆記（我的）

如果你在 Apple Silicon 跑本地 LLM — 這個站的很多讀者都是 — 這篇實實在在有用。本站 agent 後端的 Mac mini + LiteLLM 路由 Qwen LAN 設定正好落在 NPUMoE 目標範圍內。

實務問題是：NPUMoE 的技術何時（或是否）會落到主流 runtime（mlx-lm、llama.cpp Metal backend、Ollama）。觀察這些專案接下來幾個 release — 加速幅度夠大，競爭 runtime 會很快吸收。