DGX Spark 部署笔记

来自 NVIDIA DGX Spark / GB10 社群关于本地 LLM 部署的实战发现。

2026-05-04

Qwen3 MoE 在 DGX Spark 上的性能 — NVFP4 vs FP8 基准测试与实际可行的配置

社区验证的 Qwen3.6-35B-A3B 与 Qwen3.5-122B-A10B 在 GB10 上的数据：NVFP4+MTP 单用户可达 55.9 tok/s，c=32 可达 433 tok/s。涵盖 TRITON-only MoE 后端问题与 MTP+prefix-cache 失败模式。

2026-05-03

NVIDIA Developer Forums 上 DGX Spark / GB10 的六个重复出现部署陷阱（大多是软件不是硬件），加上 MoE + NVFP4/MXFP4 的社群共识。

2026-05-02

DGX Spark GB10（SM121）上 llama.cpp NVFP4/MXFP4 的完整编译标志。gpt-oss-120B MXFP4 达到 pp2048=1,980 tok/s 与 tg32=35 tok/s（PR #22196 合并后）。

2026-05-01

GB10 推理栈决策指南：vLLM 适合 MoE+高并发，llama.cpp 适合 MXFP4 提示与单用户，Ollama 适合零配置开发。包含 NVFP4 tok/s 比较。

2026-04-30

通过 LiteLLM 代理将 Claude Code API 调用路由到 DGX Spark 上的自建 Qwen3 模型。涵盖配置、模型别名映射、多 GPU 卸载，以及延迟与云端 API 的权衡分析。