DGX Spark 部署筆記
來自 NVIDIA DGX Spark / GB10 社群關於本地 LLM 部署的實戰發現。
2026-05-09
DGX Spark + Mac Studio 解耦推論 — GPT-OSS-120B 達 2.8× 加速:分離 prefill 與 decode
社群模式:DGX Spark 負責 prefill(GPT-OSS-120B 約 1,723 tok/s),Mac Studio M3 Ultra 負責 decode(819 GB/s 記憶體頻寬),相對單張 Spark FP8 達 2.8× 端到端加速。
2026-05-09
Litespark 三元 CPU 推論(arXiv 2605.06485)— TTFT 9.2×、吞吐量 52×,已發布 pip 套件
Litespark 用整數加減 SIMD 取代浮點矩陣乘法,針對三元 {-1,0,+1} 權重網路。TTFT 快 9.2×、吞吐量高 52×、記憶體小 14×。pip 可安裝、整合 HuggingFace。
2026-05-09
llama.cpp 落地 Gemma 4 26B-A4B NVFP4(b9080)與 MiMo-V2.5 注意力核心(b9085)
llama.cpp b9080–b9085 加入原生 Gemma 4 26B-A4B NVFP4(Spark 上 52 tok/s、KV 可用 82 GB)與支援 d_kq=192/d_v=128 GQA 形狀的 MiMo-V2.5 flash-attention 核心。
2026-05-09
TensorRT-LLM v1.3.0rc14 — Qwen3.5 NVFP4 權重載入修復、Mamba-hybrid 前綴快取啟用
TRT-LLM 1.3.0rc14(5/7)修復 Qwen3.5 NVFP4 weight_scales 載入、啟用 Mamba-hybrid 前綴快取、加入 NVFP4 權重更新、DFlash 單模型推測解碼,並有一個專為 Spark 命名的 GEMM 性能 PR。
2026-05-04
Qwen3 MoE 在 DGX Spark 上的效能 — NVFP4 vs FP8 基準測試與實際可行的設定
社群驗證的 Qwen3.6-35B-A3B 與 Qwen3.5-122B-A10B 在 GB10 上的數據:NVFP4+MTP 單使用者可達 55.9 tok/s,c=32 可達 433 tok/s。涵蓋 TRITON-only MoE 後端問題與 MTP+prefix-cache 失敗模式。
2026-05-03
DGX Spark 部署筆記:社群在 2026 Q2 真正遇到的問題
NVIDIA Developer Forums 上 DGX Spark / GB10 的六個重複出現部署陷阱(大多是軟體不是硬體),加上 MoE + NVFP4/MXFP4 的社群共識。
2026-05-02
llama.cpp NVFP4 與 MXFP4 在 GB10(SM121)上的編譯指南
DGX Spark GB10(SM121)上 llama.cpp NVFP4/MXFP4 的完整編譯旗標。gpt-oss-120B MXFP4 達到 pp2048=1,980 tok/s 與 tg32=35 tok/s(PR #22196 合併後)。
2026-05-01
DGX Spark 上 vLLM vs llama.cpp vs Ollama — 該用哪個推論堆疊
GB10 推論堆疊決策指南:vLLM 適合 MoE+高並發,llama.cpp 適合 MXFP4 提示與單使用者,Ollama 適合零設定開發。包含 NVFP4 tok/s 比較。
2026-04-30
LiteLLM + Claude Code 搭配 DGX Spark — LAN 服務設定與協議轉換
透過 LiteLLM 代理將 Claude Code API 呼叫路由到 DGX Spark 上的自架 Qwen3 模型。涵蓋設定、模型別名對映、多 GPU 卸載,以及延遲與雲端 API 的取捨分析。