DGX Spark 部署筆記

來自 NVIDIA DGX Spark / GB10 社群關於本地 LLM 部署的實戰發現。

2026-05-09

DGX Spark + Mac Studio 解耦推論 — GPT-OSS-120B 達 2.8× 加速：分離 prefill 與 decode

社群模式：DGX Spark 負責 prefill（GPT-OSS-120B 約 1,723 tok/s），Mac Studio M3 Ultra 負責 decode（819 GB/s 記憶體頻寬），相對單張 Spark FP8 達 2.8× 端到端加速。

2026-05-09

Litespark 用整數加減 SIMD 取代浮點矩陣乘法，針對三元 {-1,0,+1} 權重網路。TTFT 快 9.2×、吞吐量高 52×、記憶體小 14×。pip 可安裝、整合 HuggingFace。

2026-05-09

llama.cpp b9080–b9085 加入原生 Gemma 4 26B-A4B NVFP4（Spark 上 52 tok/s、KV 可用 82 GB）與支援 d_kq=192/d_v=128 GQA 形狀的 MiMo-V2.5 flash-attention 核心。

2026-05-09

TRT-LLM 1.3.0rc14（5/7）修復 Qwen3.5 NVFP4 weight_scales 載入、啟用 Mamba-hybrid 前綴快取、加入 NVFP4 權重更新、DFlash 單模型推測解碼，並有一個專為 Spark 命名的 GEMM 性能 PR。

2026-05-04

社群驗證的 Qwen3.6-35B-A3B 與 Qwen3.5-122B-A10B 在 GB10 上的數據：NVFP4+MTP 單使用者可達 55.9 tok/s，c=32 可達 433 tok/s。涵蓋 TRITON-only MoE 後端問題與 MTP+prefix-cache 失敗模式。

2026-05-03

NVIDIA Developer Forums 上 DGX Spark / GB10 的六個重複出現部署陷阱（大多是軟體不是硬體），加上 MoE + NVFP4/MXFP4 的社群共識。

2026-05-02

DGX Spark GB10（SM121）上 llama.cpp NVFP4/MXFP4 的完整編譯旗標。gpt-oss-120B MXFP4 達到 pp2048=1,980 tok/s 與 tg32=35 tok/s（PR #22196 合併後）。

2026-05-01

GB10 推論堆疊決策指南：vLLM 適合 MoE+高並發，llama.cpp 適合 MXFP4 提示與單使用者，Ollama 適合零設定開發。包含 NVFP4 tok/s 比較。

2026-04-30

透過 LiteLLM 代理將 Claude Code API 呼叫路由到 DGX Spark 上的自架 Qwen3 模型。涵蓋設定、模型別名對映、多 GPU 卸載，以及延遲與雲端 API 的取捨分析。