Skip to content
AI-Daily-Builder

2026-05-24 ビュー · 13 models

DGX Spark(GB10)ローカルモデルスループット — 13 構成の prefill / decode tok/s

Prompt

1 台の DGX Spark(GB10、128 GB LPDDR5X 統合メモリ、約 273 GB/s 帯域、約 1 PFLOP FP4)での標準化された単一ストリーム(バッチサイズ 1)推論:入力 2,048 token、出力 128 token(ISL/OSL 2048/128)。各行は「モデル + 量子化 + 推論エンジン」の組み合わせ。プロンプト処理スループット(prefill、'pp')と token 生成スループット(decode、'tg')を tokens/秒で報告する。表示するレイテンシは、公開された decode レートで 128 token を生成するモデル化時間(128 / tg × 1000)。

Notes

1 台の DGX Spark GB10(128 GB LPDDR5X、273 GB/s)。'pp' = プロンプト処理 / prefill tok/s;'tg' = token 生成 / decode tok/s。判定は単一ストリーム decode による段階分け:win = 30+ tok/s(快適な対話)、tie = 10-30(実用)、loss = 10 未満(非実用)。各行に出典クラスを付記:NVIDIA-official = developer.nvidia.com「How DGX Spark Performance Enables Intensive AI Tasks」(ISL/OSL 2048/128、BS=1);community = NVIDIA 開発者フォーラム / llama.cpp issues / SGLang 実測。要点:(1) decode はメモリ帯域律速 — tg tok/s は概ね token あたりアクティブパラメータのバイト数 ÷ 273 GB/s に等しく、MoE(A3B)と低ビット量子化が押し上げる。(2) prefill は Blackwell FP4 コアの演算律速 — モデルサイズによらず通常は数千 tok/s。(3) 量子化形式が重要:NVFP4/MXFP4 の decode は FP8 の約 2 倍(Llama 3.1 8B:38.65 NVFP4 vs 20.5 FP8)。(4) 投機的 MTP は単一ストリーム decode をほぼ倍増(Qwen3.6-27B:13.1 → 28.3)するが、並行時には低下する。(5) 密な 70B は FP8 で 128 GB にかろうじて収まりスラッシングする(約 2.7 tg)— 単一機では避ける。(6) 235B は ConnectX-7 経由で 2 台の Spark が必要。公開ベンチマークから集約;DUAL と明記のない限り全て単一機。

Results — 13 models

GPT-OSS-20B · MXFP4 · llama.cpp WIN · 1547ms · in 2048 · out 128

3670.42 pp / 82.74 tg tok/s · llama.cpp · NVIDIA-official

Qwen3.5-35B-A3B · MXFP4 · llama.cpp WIN · 2207ms · out 128

prefill n/p / ~58 tg tok/s · llama.cpp · community (MoE A3B; theoretical ceiling ~91)

GPT-OSS-120B · MXFP4 · llama.cpp WIN · 2312ms · in 2048 · out 128

1725.47 pp / 55.37 tg tok/s · llama.cpp · NVIDIA-official (canonical official 120B decode; engine spread 35 llama.cpp deep-ctx → 41 Ollama → ~50 SGLang)

Qwen2.5-VL-7B · NVFP4 · TRT-LLM (vision) WIN · 3069ms · in 2048 · out 128

65831.77 pp / 41.71 tg tok/s · TRT-LLM · NVIDIA-official

Llama 3.1 8B · NVFP4 · TRT-LLM WIN · 3312ms · in 2048 · out 128

10256.9 pp / 38.65 tg tok/s · TRT-LLM · NVIDIA-official

Qwen3-Coder-30B-A3B · Q8_0 · llama.cpp WIN · 4129ms · out 128

1308 pp / 31 tg tok/s · llama.cpp · community (llama.cpp #16578; MoE A3B)

Qwen3.6-27B · Q4_K_M +MTP · llama.cpp TIE · 4523ms · out 128

719 pp / 28.3 tg tok/s · llama.cpp +MTP (5 draft) · community (2.16x decode vs no-MTP)

Gemma 4 26B-A4B · F16 · llama.cpp TIE · 4830ms · out 128

prefill n/p / ~26.5 tg tok/s · llama.cpp · community (MoE A4B; theoretical ~34)

Qwen3-14B · NVFP4 · TRT-LLM TIE · 5637ms · in 2048 · out 128

5928.95 pp / 22.71 tg tok/s · TRT-LLM · NVIDIA-official

Llama 3.1 8B · FP8 · SGLang TIE · 6244ms · out 128

7991 pp / 20.5 tg tok/s · SGLang · community (FP8 decode ~half of NVFP4 — same model)

Qwen3.6-27B · Q4_K_M · llama.cpp TIE · 9771ms · out 128

1084 pp / 13.1 tg tok/s · llama.cpp · community (single-stream, no spec-decode)

Llama 3.1 70B · FP8 · SGLang LOSS · 47407ms · out 128

~803 pp / ~2.7 tg tok/s · SGLang · community (barely fits 128 GB; KV+weights thrash — avoid dense 70B FP8 on one unit)

Qwen3-235B · NVFP4 · TRT-LLM (DUAL Spark) · 10912ms · in 2048 · out 128

23477.03 pp / 11.73 tg tok/s · TRT-LLM · NVIDIA-official · DUAL DGX Spark over ConnectX-7 (does not fit one unit at usable quant)
チップ