Builder Daily

2026-05-01

DGX SparkでvLLM vs llama.cpp vs Ollama — どの推論スタックを使うべきか

GB10推論スタック選択ガイド:MoE+高並列ならvLLM、MXFPプロンプト・単一ユーザーならllama.cpp、ゼロ設定開発ならOllama。NVFP4 tok/s比較付き。

DGX Sparkの展開を支配する推論スタックは3つ:vLLM、llama.cpp、Ollama。GB10のSM121アーキテクチャではそれぞれ明確な違いがあります。

一目でわかる比較

vLLMllama.cppOllama
NVFP4サポート✅(cu130-nightly)✅(PR #22196)⚠️ llama.cppバックエンド経由
MoEモデル✅ 最良✅ 良好✅ 良好
マルチユーザー並列✅ 優秀⚠️ 限定的⚠️ 限定的
MTP投機的デコーディング
セットアップの複雑さ
OpenAI互換API✅(llama-server)

単一ユーザースループット:Qwen3.6-35B-A3B

スタック量化単一ユーザー tok/s
vLLM(FP8、MTPなし)FP828–33
vLLM(NVFP4、MTPなし)NVFP4~42
vLLM(NVFP4 + MTP-1)NVFP455.9
llama.cpp(NVFP4)NVFP4~38
llama.cpp(MXFP4)MXFP4~43
Ollama(デフォルトQ4)Q4_K_M~24

並列性:vLLMの圧倒的優位

c=32の並列ユーザーでは、vLLMの継続バッチ処理とページングKVキャッシュが差をつけます:

スタックc=32 総 tok/s
vLLM(NVFP4 + MTP)433
llama.cpp(llama-server、NVFP4)~95
Ollama~60

どれを使うべきか

vLLMを選ぶ場合:

llama.cppを選ぶ場合:

Ollamaを選ぶ場合:

TRITON-onlyの落とし穴

SM121上でFP8 MoEのvLLMはTRITON専用です — FP8ではFLASHINFER、CUTLASS、DEEPGEMMは利用不可。これが未調整のvLLM FP8がllama.cppより遅い理由です。--moe-backend=flashinfer_cutlassを設定してNVFP4に切り替えてください。


Sources

チップ