2026-05-09
Litespark 三元 CPU 推論(arXiv 2605.06485)— TTFT 9.2×、吞吐量 52×,已發布 pip 套件
Litespark 用整數加減 SIMD 取代浮點矩陣乘法,針對三元 {-1,0,+1} 權重網路。TTFT 快 9.2×、吞吐量高 52×、記憶體小 14×。pip 可安裝、整合 HuggingFace。
2026 年 5 月 7 日提交至 arXiv 的 Litespark-Inference(作者 Dade、Morri、Rahat、Pal)將浮點矩陣乘法替換為三元 1 權重網路上的整數加減 SIMD 核心。Apple Silicon 上對比 PyTorch 基準的標題數據:
| 指標 | 改善 |
|---|---|
| 首 token 延遲(TTFT) | 9.2× 更快 |
| 吞吐量 | 52× 更高 |
| 記憶體佔用 | 14× 更小 |
在 Intel 與 AMD x86 上有相當的提升。關鍵細節:以 pip 安裝套件發布、整合 HuggingFace Transformers —— 不只是論文,而是今天就能 pip install 的可用工具。
為什麼三元對推論重要
三元權重 1 可用 1.58 位元編碼,且只用整數加 / 減運算就能計算 —— 不需要乘法。這解鎖了:
- 不依賴 FPU —— 在最便宜的 ARM 核心上也能跑
- SIMD 友善 —— 整數加 / 減在 NEON / AVX2 / AVX-512 上易於向量化
- 每 token 能耗較低 —— 主要算術運算(乘法)被替換為最便宜的(加法)
代價:全精度 LLM 並非原生三元的。Litespark 專門針對「三元訓練」的網路(BitNet 系列及後繼)。把它用在稠密的 Qwen / Llama 是另一條 pipeline —— 你需要一個三元蒸餾步驟。
為什麼這對 DGX Spark 操作者重要
DGX Spark 在 GB10 Blackwell GPU 旁邊還有 20 核 Grace CPU。多數操作者讓 Grace 核心在推論期間閒置。Litespark 給了你一個動用它們的好理由:
-
推測解碼的草稿模型。 若你在 GPU 上跑 Qwen3.6-35B-A3B,可在 Grace 核心上跑三元草稿模型平行產生候選 token,讓 GPU 擔任驗證者。這與 MTP-1 的模式相同,但草稿運行在不同晶片上 —— 不爭搶 GPU 資源。
-
路由 / 分類 offload。 小型三元分類器(意圖偵測、內容審核、程式碼 vs 純文字路由)可以跑在 Grace 端,不會從主要服務迴圈偷走 GPU 週期。
-
嵌入向量產生。 三元嵌入模型隨 CPU 核心數近似線性擴展。20 個 Grace 核心 × Litespark 核心對 RAG 索引建構提供可觀的吞吐量,與 GPU 服務並行。
行動項
pip install litespark-inference
# 嘗試把三元草稿模型搭配你的 Qwen3.6 驗證者使用
python -c "
from litespark import LitesparkLM
draft = LitesparkLM.from_pretrained('bitnet-b1.58-3b')
# 作為對你 Spark 主 Qwen3.6 驗證者的草稿,跑推測解碼
"
30 分鐘的實驗就足夠:在你實際的工作負載組合上測量草稿接受率。若接受率達 70%+,這個推測解碼槓桿值得寫進你的服務堆疊。若低於 50%,三元草稿與浮點目標差太多 —— 改用同源的草稿模型更好。
這個模式也與解耦推論銜接:CPU 上的三元草稿 → GPU 上的 NVFP4 驗證者。兩個階段不會競爭同一條記憶體頻寬。