2026-05-09

Litespark 三元 CPU 推論（arXiv 2605.06485）— TTFT 9.2×、吞吐量 52×，已發布 pip 套件

Litespark 用整數加減 SIMD 取代浮點矩陣乘法，針對三元 {-1,0,+1} 權重網路。TTFT 快 9.2×、吞吐量高 52×、記憶體小 14×。pip 可安裝、整合 HuggingFace。

2026 年 5 月 7 日提交至 arXiv 的 Litespark-Inference（作者 Dade、Morri、Rahat、Pal）將浮點矩陣乘法替換為三元 1 權重網路上的整數加減 SIMD 核心。Apple Silicon 上對比 PyTorch 基準的標題數據：

指標	改善
首 token 延遲（TTFT）	9.2× 更快
吞吐量	52× 更高
記憶體佔用	14× 更小

在 Intel 與 AMD x86 上有相當的提升。關鍵細節：以 pip 安裝套件發布、整合 HuggingFace Transformers —— 不只是論文，而是今天就能 pip install 的可用工具。

為什麼三元對推論重要

三元權重 1 可用 1.58 位元編碼，且只用整數加 / 減運算就能計算 —— 不需要乘法。這解鎖了：

不依賴 FPU —— 在最便宜的 ARM 核心上也能跑
SIMD 友善 —— 整數加 / 減在 NEON / AVX2 / AVX-512 上易於向量化
每 token 能耗較低 —— 主要算術運算（乘法）被替換為最便宜的（加法）

代價：全精度 LLM 並非原生三元的。Litespark 專門針對「三元訓練」的網路（BitNet 系列及後繼）。把它用在稠密的 Qwen / Llama 是另一條 pipeline —— 你需要一個三元蒸餾步驟。

為什麼這對 DGX Spark 操作者重要

DGX Spark 在 GB10 Blackwell GPU 旁邊還有 20 核 Grace CPU。多數操作者讓 Grace 核心在推論期間閒置。Litespark 給了你一個動用它們的好理由：

推測解碼的草稿模型。 若你在 GPU 上跑 Qwen3.6-35B-A3B，可在 Grace 核心上跑三元草稿模型平行產生候選 token，讓 GPU 擔任驗證者。這與 MTP-1 的模式相同，但草稿運行在不同晶片上 —— 不爭搶 GPU 資源。
路由 / 分類 offload。 小型三元分類器（意圖偵測、內容審核、程式碼 vs 純文字路由）可以跑在 Grace 端，不會從主要服務迴圈偷走 GPU 週期。
嵌入向量產生。 三元嵌入模型隨 CPU 核心數近似線性擴展。20 個 Grace 核心 × Litespark 核心對 RAG 索引建構提供可觀的吞吐量，與 GPU 服務並行。

行動項

pip install litespark-inference

# 嘗試把三元草稿模型搭配你的 Qwen3.6 驗證者使用
python -c "
from litespark import LitesparkLM
draft = LitesparkLM.from_pretrained('bitnet-b1.58-3b')
# 作為對你 Spark 主 Qwen3.6 驗證者的草稿，跑推測解碼
"

30 分鐘的實驗就足夠：在你實際的工作負載組合上測量草稿接受率。若接受率達 70%+，這個推測解碼槓桿值得寫進你的服務堆疊。若低於 50%，三元草稿與浮點目標差太多 —— 改用同源的草稿模型更好。

這個模式也與解耦推論銜接：CPU 上的三元草稿 → GPU 上的 NVFP4 驗證者。兩個階段不會競爭同一條記憶體頻寬。

Litespark 三元 CPU 推論（arXiv 2605.06485）— TTFT 9.2×、吞吐量 52×，已發布 pip 套件

為什麼三元對推論重要

為什麼這對 DGX Spark 操作者重要

行動項

Sources