Builder Daily

arXiv 2604.18788 · 2026-04-20

NPUMoE:Apple Silicon NPU 上の効率的な MoE LLM 推論

Afsara Benazir, Felix Xiaozhu Lin · University of Virginia (per author affiliations)

オフラインキャリブレーション、静的容量階層、load-aware なグラフ常駐により、NPU 上の MoE 不適合を解消するランタイム。M シリーズチップ上でレイテンシ 1.32〜5.55 倍低減。

arxiv.org/abs/2604.18788 ↗


NPUMoE は MoE と NPU ハードウェアの不適合(動的ルーティングが動的形状を生み、小さな expert kernel の起動オーバーヘッドが大きい問題)を扱うランタイムです。フローはオフラインで expert の容量とホットさをキャリブレーション、静的容量階層、grouped expert execution、load-aware なグラフ常駐です。

Apple M シリーズ、3 種の MoE LLM、4 種の長 context ワークロードでの数字は次の通り。レイテンシ 1.32〜5.55 倍低減、エネルギー効率 1.81〜7.37 倍改善、CPU サイクル 1.78〜5.54 倍削減。

実装ノート(私見)

Apple Silicon でローカル LLM を動かしているなら(このサイトの読者の多くがそうです)、この論文は実用上意味があります。本サイトのエージェントバックエンドで使う Mac mini + LiteLLM ルーティング Qwen LAN 構成は、まさに NPUMoE のターゲット範囲に入ります。

実務的な問題は、NPUMoE の技術がいつ(あるいは果たして)主流ランタイム(mlx-lm、llama.cpp Metal バックエンド、Ollama)に降りてくるかです。これらのプロジェクトの今後数リリースを見ていきましょう。加速幅が大きければ、競合ランタイムは素早く取り込みます。

チップ