Builder Daily

DGX Spark 部署筆記

來自 NVIDIA DGX Spark / GB10 社群關於本地 LLM 部署的實戰發現。

2026-05-09

DGX Spark + Mac Studio 解耦推論 — GPT-OSS-120B 達 2.8× 加速:分離 prefill 與 decode

社群模式:DGX Spark 負責 prefill(GPT-OSS-120B 約 1,723 tok/s),Mac Studio M3 Ultra 負責 decode(819 GB/s 記憶體頻寬),相對單張 Spark FP8 達 2.8× 端到端加速。

2026-05-09

Litespark 三元 CPU 推論(arXiv 2605.06485)— TTFT 9.2×、吞吐量 52×,已發布 pip 套件

Litespark 用整數加減 SIMD 取代浮點矩陣乘法,針對三元 {-1,0,+1} 權重網路。TTFT 快 9.2×、吞吐量高 52×、記憶體小 14×。pip 可安裝、整合 HuggingFace。

2026-05-09

llama.cpp 落地 Gemma 4 26B-A4B NVFP4(b9080)與 MiMo-V2.5 注意力核心(b9085)

llama.cpp b9080–b9085 加入原生 Gemma 4 26B-A4B NVFP4(Spark 上 52 tok/s、KV 可用 82 GB)與支援 d_kq=192/d_v=128 GQA 形狀的 MiMo-V2.5 flash-attention 核心。

2026-05-09

TensorRT-LLM v1.3.0rc14 — Qwen3.5 NVFP4 權重載入修復、Mamba-hybrid 前綴快取啟用

TRT-LLM 1.3.0rc14(5/7)修復 Qwen3.5 NVFP4 weight_scales 載入、啟用 Mamba-hybrid 前綴快取、加入 NVFP4 權重更新、DFlash 單模型推測解碼,並有一個專為 Spark 命名的 GEMM 性能 PR。

2026-05-04

Qwen3 MoE 在 DGX Spark 上的效能 — NVFP4 vs FP8 基準測試與實際可行的設定

社群驗證的 Qwen3.6-35B-A3B 與 Qwen3.5-122B-A10B 在 GB10 上的數據:NVFP4+MTP 單使用者可達 55.9 tok/s,c=32 可達 433 tok/s。涵蓋 TRITON-only MoE 後端問題與 MTP+prefix-cache 失敗模式。

2026-05-03

DGX Spark 部署筆記:社群在 2026 Q2 真正遇到的問題

NVIDIA Developer Forums 上 DGX Spark / GB10 的六個重複出現部署陷阱(大多是軟體不是硬體),加上 MoE + NVFP4/MXFP4 的社群共識。

2026-05-02

llama.cpp NVFP4 與 MXFP4 在 GB10(SM121)上的編譯指南

DGX Spark GB10(SM121)上 llama.cpp NVFP4/MXFP4 的完整編譯旗標。gpt-oss-120B MXFP4 達到 pp2048=1,980 tok/s 與 tg32=35 tok/s(PR #22196 合併後)。

2026-05-01

DGX Spark 上 vLLM vs llama.cpp vs Ollama — 該用哪個推論堆疊

GB10 推論堆疊決策指南:vLLM 適合 MoE+高並發,llama.cpp 適合 MXFP4 提示與單使用者,Ollama 適合零設定開發。包含 NVFP4 tok/s 比較。

2026-04-30

LiteLLM + Claude Code 搭配 DGX Spark — LAN 服務設定與協議轉換

透過 LiteLLM 代理將 Claude Code API 呼叫路由到 DGX Spark 上的自架 Qwen3 模型。涵蓋設定、模型別名對映、多 GPU 卸載,以及延遲與雲端 API 的取捨分析。

請喝咖啡