Builder Daily

2026-05-09

DGX Spark + Mac Studio 解耦推論 — GPT-OSS-120B 達 2.8× 加速:分離 prefill 與 decode

社群模式:DGX Spark 負責 prefill(GPT-OSS-120B 約 1,723 tok/s),Mac Studio M3 Ultra 負責 decode(819 GB/s 記憶體頻寬),相對單張 Spark FP8 達 2.8× 端到端加速。

5 月 5 日發布的一篇社群文章在 DGX Spark 論壇整週擴散:將 DGX Spark 與 Mac Studio M3 Ultra 透過解耦推論(disaggregated serving)配對使用,在 GPT-OSS-120B 上相對單張 Spark FP8 基準達到 2.8× 端到端加速

模式背後的頻寬數學

DGX Spark 與 Mac Studio M3 Ultra 的優勢是不對稱的,正好對應 LLM 工作負載的兩個階段:

階段瓶頸DGX Spark(GB10)Mac Studio M3 Ultra
Prefill(處理輸入)算力(TFLOPS)強 — Blackwell tensor core弱 — 統一記憶體 ALU
Decode(生成 token)記憶體頻寬273 GB/s LPDDR5X819 GB/s 統一記憶體

GPT-OSS-120B 在 DGX Spark 上的 prefill 實測 約 1,723 tok/s(算力受限,Spark 勝)。同硬體上的 decode 卡在頻寬下限(FP8 約 36 tok/s)。Mac Studio 的記憶體頻寬高出 3 倍,使其 decode 約快 2 倍。把工作負載拆開 —— Spark 負責 prefill、Mac Studio 負責 decode —— 就能結合兩者的優勢。

實測結果

配置GPT-OSS-120B tok/s備註
單張 Spark FP836decode 受頻寬限制
單張 Spark NVFP4(CES 後)49.7NVFP4 打包有幫助
Spark + Mac Studio 解耦約 100+ 端到端比 Spark FP8 基準快 2.8×

解耦透過 NIXL 或類似的 prefill/decode 控制器串接。vLLM 0.20+ 與 TensorRT-LLM 1.3.0rc14+ 都原生支援此模式 —— TRT-LLM PR #13198(「KV-aware ADP routing」)剛在本週的釋出中合併,是 NVIDIA 堆疊上最乾淨的路徑。

何時值得做、何時不值得

強候選:

弱候選:

行動項

如果你有一台 Mac Studio M3 Ultra(甚至 M2 Ultra)閒置,這對任何跑 70B+ 稠密模型的 DGX Spark 操作者來說,是 ROI 最高的週末專案。設置大致如下:

  1. 在 Spark 上安裝 TRT-LLM 1.3.0rc14,加上 --enable-disaggregated
  2. 在 Mac Studio 上安裝 MLX 或 llama.cpp Metal,擔任 decode 角色
  3. 透過 NIXL 或 TRT-LLM 原生 KV transfer(PR #13198)連線
  4. 透過 vLLM 的 prefill/decode router 或一層自製薄層做路由

對只用 Spark 的操作者,反向結論同樣有用:在持續性單張 Spark 服務時,優先選擇 A3B 級 MoE 而非 30B+ 稠密。即使在 NVFP4 下,27B 以上稠密的頻寬數學依然不利。


Sources

請喝咖啡