Builder Daily

DGX Spark 部署笔记

来自 NVIDIA DGX Spark / GB10 社群关于本地 LLM 部署的实战发现。

2026-05-04

Qwen3 MoE 在 DGX Spark 上的性能 — NVFP4 vs FP8 基准测试与实际可行的配置

社区验证的 Qwen3.6-35B-A3B 与 Qwen3.5-122B-A10B 在 GB10 上的数据:NVFP4+MTP 单用户可达 55.9 tok/s,c=32 可达 433 tok/s。涵盖 TRITON-only MoE 后端问题与 MTP+prefix-cache 失败模式。

2026-05-03

DGX Spark 部署笔记:社群在 2026 Q2 真正遇到的问题

NVIDIA Developer Forums 上 DGX Spark / GB10 的六个重复出现部署陷阱(大多是软件不是硬件),加上 MoE + NVFP4/MXFP4 的社群共识。

2026-05-02

llama.cpp NVFP4 与 MXFP4 在 GB10(SM121)上的编译指南

DGX Spark GB10(SM121)上 llama.cpp NVFP4/MXFP4 的完整编译标志。gpt-oss-120B MXFP4 达到 pp2048=1,980 tok/s 与 tg32=35 tok/s(PR #22196 合并后)。

2026-05-01

DGX Spark 上 vLLM vs llama.cpp vs Ollama — 该用哪个推理栈

GB10 推理栈决策指南:vLLM 适合 MoE+高并发,llama.cpp 适合 MXFP4 提示与单用户,Ollama 适合零配置开发。包含 NVFP4 tok/s 比较。

2026-04-30

LiteLLM + Claude Code 搭配 DGX Spark — LAN 服务配置与协议转换

通过 LiteLLM 代理将 Claude Code API 调用路由到 DGX Spark 上的自建 Qwen3 模型。涵盖配置、模型别名映射、多 GPU 卸载,以及延迟与云端 API 的权衡分析。

请喝咖啡