Builder Daily

arXiv 2604.18788 · 2026-04-20

NPUMoE:Apple Silicon NPU 上的高效 MoE LLM 推論

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

Runtime 透過離線校準、靜態容量層級、load-aware graph 駐留處理 MoE 在 NPU 上的不適配。M 系列晶片上延遲降 1.32-5.55 倍。

arxiv.org/abs/2604.18788 ↗


NPUMoE 是個 runtime,處理 MoE 與 NPU 硬體不太適配的問題(動態路由產出動態形狀、小型 expert kernel 啟動開銷高)。流程:離線校準 expert 容量與熱度、靜態容量層級、grouped expert execution、load-aware graph 駐留。

Apple M 系列三個 MoE LLM、四個長 context workload 的數字:延遲降 1.32-5.55 倍,能效改善 1.81-7.37 倍,CPU cycles 減少 1.78-5.54 倍。

實戰筆記(我的)

如果你在 Apple Silicon 跑本地 LLM — 這個站的很多讀者都是 — 這篇實實在在有用。本站 agent 後端的 Mac mini + LiteLLM 路由 Qwen LAN 設定正好落在 NPUMoE 目標範圍內。

實務問題是:NPUMoE 的技術何時(或是否)會落到主流 runtime(mlx-lm、llama.cpp Metal backend、Ollama)。觀察這些專案接下來幾個 release — 加速幅度夠大,競爭 runtime 會很快吸收。

請喝咖啡