Builder Daily

2026-05-04

Cloudflare Infire — 分離式推論架構比 vLLM 快 20%,Unweight 無損壓縮縮小模型 22%

Cloudflare 以 Rust 開發的 Infire 推論引擎採用分離式 Prefill/Decode 架構,在 H100 滿載下比 vLLM 0.10 高出 20% 吞吐量;伴隨推出的 Unweight 系統可無損壓縮模型權重 15–22%。

Cloudflare 公開兩套為 Workers AI 提供動力的新系統。Infire 是以 Rust 開發的推論引擎,核心是分離式 Prefill/Decode 架構:Prefill(提示詞處理)與 Decode(逐 Token 生成)分別在獨立 GPU 池執行,各自獨立擴縮。對比 vLLM 0.10.0 在 H100 滿載的基準測試,Infire 吞吐量高出最多 20%。支援 Tensor-Parallel 與 Pipeline-Parallel 部署 MoE 模型。

Unweight 是無損 MLP 權重壓縮系統,可將模型大小縮減 15–22%,輸出完全等價(Bit-exact),無精度損失、無量化誤差。

實戰筆記

分離式 Prefill/Decode 是高吞吐推論的架構方向,vLLM 與 SGLang 也在朝同一方向演進。若你在 H100 上執行開源模型,值得以正式環境工作負載對比 Infire。Unweight 的 22% 無損壓縮若屬實,可直接改變 GPU 容量規劃——閱讀研究論文 PDF 前不宜輕易採信,但值得驗證。


來源

標籤

請喝咖啡