arXiv 2604.18788 · 2026-04-20

NPUMoE：Apple Silicon NPU 上の効率的な MoE LLM 推論

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

オフラインキャリブレーション、静的容量階層、load-aware なグラフ常駐により、NPU 上の MoE 不適合を解消するランタイム。M シリーズチップ上でレイテンシ 1.32〜5.55 倍低減。

NPUMoE は MoE と NPU ハードウェアの不適合（動的ルーティングが動的形状を生み、小さな expert kernel の起動オーバーヘッドが大きい問題）を扱うランタイムです。フローはオフラインで expert の容量とホットさをキャリブレーション、静的容量階層、grouped expert execution、load-aware なグラフ常駐です。

Apple M シリーズ、3 種の MoE LLM、4 種の長 context ワークロードでの数字は次の通り。レイテンシ 1.32〜5.55 倍低減、エネルギー効率 1.81〜7.37 倍改善、CPU サイクル 1.78〜5.54 倍削減。

実装ノート（私見）

Apple Silicon でローカル LLM を動かしているなら（このサイトの読者の多くがそうです）、この論文は実用上意味があります。本サイトのエージェントバックエンドで使う Mac mini + LiteLLM ルーティング Qwen LAN 構成は、まさに NPUMoE のターゲット範囲に入ります。

実務的な問題は、NPUMoE の技術がいつ（あるいは果たして）主流ランタイム（mlx-lm、llama.cpp Metal バックエンド、Ollama）に降りてくるかです。これらのプロジェクトの今後数リリースを見ていきましょう。加速幅が大きければ、競合ランタイムは素早く取り込みます。