2026-06-07 — 次瀏覽
vLLM 官方 DGX Spark 指南:為何 120B NVFP4 模型解碼僅約 23 tok/s,以及這對頻寬受限的本地推論帶來什麼啟示
2026 年 6 月 1 日,vLLM 專案發布了在 NVIDIA DGX Spark(GB10 Grace Blackwell、sm_121、128 GB 統一記憶體)上運行 vLLM 的官方指南。透過 vllm/vllm-openai:cu130-nightly 容器服務 Nemotron-3-Super-120B-A12B-NVFP4,報告解碼速度 22.7-23.7 tok/s、預填充最高約 1,884 tok/s、TTFT
發布了什麼
2026 年 6 月 1 日,vLLM 專案發布了在 NVIDIA DGX Spark 上運行 vLLM 的官方逐步指南。DGX Spark 是桌邊型 GB10 Grace Blackwell 機器,配備 128 GB 統一 LPDDR5X 記憶體與消費級 Blackwell 的 sm_121 計算能力。與大多數「我把它開機起來了」的論壇貼文不同,這篇文章將經過測試的部署配方與真實的本地評估結合,因此也可作為思考單機推論經濟性的參考。
主打的工作負載是 Nemotron-3-Super-120B-A12B-NVFP4:總計 120B 參數,在混合專家(MoE)架構中每個 token 約啟用 12B,量化為 NVFP4。這個組合正是整個練習的重點。一個 BF16 的 120B 稠密模型根本放不下,但一個約 12B 啟用參數的 NVFP4 MoE 能輕鬆容納於 128 GB 中,且每個 token 只需串流其權重的一小部分。
報告中的數字
透過 vllm/vllm-openai:cu130-nightly 容器(CUDA 13)服務,搭配 --gpu-memory-utilization 0.85、--max-model-len 131072 與 --max-num-seqs 4,該文測得:
| 指標 | 報告範圍 |
|---|---|
| 解碼吞吐量 | 22.7-23.7 tok/s |
| 預填充吞吐量 | ~140 tok/s(58-tok 提示)至 ~1,884 tok/s(7,234-tok 提示) |
| 首 token 時間 | 0.42 s(短)至 ~3.85 s(長) |
| KV 快取使用率 | 單用戶低於 5%;小批次低於 30% |
有兩點特別突出。第一,KV 快取佔用極小,因此 128 GB 幾乎全部用於權重而非脈絡。第二,預填充隨提示長度擴展,而解碼無論如何都維持在約 23 tok/s 的平穩狀態。那條平穩的解碼曲線正是關鍵線索。
為何解碼是平的:頻寬,而非算力
結構性的啟示就在記憶體匯流排。GB10 透過 256-bit LPDDR5X 介面(8,533 MT/s)以 273 GB/s 移動資料 — 約比 H100 的 ~3.35 TB/s HBM3 慢 12 倍。自迴歸解碼每個 token 讀取一次啟用權重,因此在低批次下,張量核心大多閒置等待記憶體。獨立拆解報告也直白地指出同一點:在 273 GB/s 下,無論投入多少算力,35 GB 的模型理論上最高僅能達到約 7.8 tok/s。
這也是為何 NVFP4 在此比在資料中心卡上更重要。將權重從 16 bytes/param(BF16)削減至約 4.5 bytes/param,能將每個 token 移動的位元組數減半,這在頻寬受限的機器上能將解碼吞吐量大約翻倍。生態系中流傳的一項比較顯示,同樣的 Nemotron 3 Super 在 NVFP4 版本下約為 38 tok/s,而在 Q4_K_M GGUF 下約為 19.5 tok/s — 同一個模型,變數在於格式與核心路徑。(vLLM 文章自身的 ~23 tok/s 反映其特定的 131K 脈絡配置與容器,因此應將跨來源數字視為方向性指標,而非完全對等的比較。)
實務框架
該文對其適用範圍坦率得令人耳目一新:DGX Spark「最好視為本地單用戶或小批次推論目標」。它刻意運行 --max-num-seqs 4;將並行度推得更高會犧牲延遲,因為你受限的是頻寬而非算力。透過 ConnectX 結構的多 Spark 配置雖被提及,但本文明確未予評估。
統一記憶體架構是低調的促成者。由於 CPU 與 GPU 共享一個實體 128 GB 池,權重與 KV 快取無需透過 PCIe 進行 cudaMemcpy 往返即可常駐 — 相較 HBM 你損失了原始頻寬,但省下了複製的成本,而這正是讓 120B 級模型能在桌機上運行的關鍵。
從業者註記: 若你要為 100-130B 的 NVFP4 MoE 規劃單機本地伺服器,請以約 20-40 tok/s 解碼與較低的 max-num-seqs 來設定預期,而非資料中心級吞吐量。請驗證你實際要運行的容器/CUDA 組合(此處官方路徑為 cu130-nightly 映像與特定於模型的推理解析器);在不同脈絡、量化核心或服務堆疊下發布的解碼速率不會乾淨地轉移,而光是初始權重載入就可能耗時 10-15 分鐘。
未被充分考量的角度: 幾乎每個 DGX Spark 基準測試的標題都是單串流解碼數字,這會美化 MoE 模型 — 每個 token 只有約 10% 的參數會移動。真正能預測這台機器是否適合小團隊使用的指標,是在真實 KV 佔用下的並行解碼。在 KV 快取使用率低於 5% 時,系統幾乎沒有動用其最弱的資源;有趣(且大多未被發布)的問題,是當你在 273 GB/s 匯流排上提高批次時的吞吐量與延遲曲線,因為那正是一台桌邊統一記憶體機器要麼撐得住數名同時使用者、要麼崩塌為嚴格的單人工具的分水嶺。