arXiv 2604.18788 · 2026-04-20
NPUMoE:Apple Silicon NPU 上的高效 MoE LLM 推論
Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)
Runtime 透過離線校準、靜態容量層級、load-aware graph 駐留處理 MoE 在 NPU 上的不適配。M 系列晶片上延遲降 1.32-5.55 倍。
NPUMoE 是個 runtime,處理 MoE 與 NPU 硬體不太適配的問題(動態路由產出動態形狀、小型 expert kernel 啟動開銷高)。流程:離線校準 expert 容量與熱度、靜態容量層級、grouped expert execution、load-aware graph 駐留。
Apple M 系列三個 MoE LLM、四個長 context workload 的數字:延遲降 1.32-5.55 倍,能效改善 1.81-7.37 倍,CPU cycles 減少 1.78-5.54 倍。
實戰筆記(我的)
如果你在 Apple Silicon 跑本地 LLM — 這個站的很多讀者都是 — 這篇實實在在有用。本站 agent 後端的 Mac mini + LiteLLM 路由 Qwen LAN 設定正好落在 NPUMoE 目標範圍內。
實務問題是:NPUMoE 的技術何時(或是否)會落到主流 runtime(mlx-lm、llama.cpp Metal backend、Ollama)。觀察這些專案接下來幾個 release — 加速幅度夠大,競爭 runtime 會很快吸收。