2026-05-04

Cloudflare Infire — 分離式推論架構比 vLLM 快 20%，Unweight 無損壓縮縮小模型 22%

Cloudflare 以 Rust 開發的 Infire 推論引擎採用分離式 Prefill/Decode 架構，在 H100 滿載下比 vLLM 0.10 高出 20% 吞吐量；伴隨推出的 Unweight 系統可無損壓縮模型權重 15–22%。

Cloudflare 公開兩套為 Workers AI 提供動力的新系統。Infire 是以 Rust 開發的推論引擎，核心是分離式 Prefill/Decode 架構：Prefill（提示詞處理）與 Decode（逐 Token 生成）分別在獨立 GPU 池執行，各自獨立擴縮。對比 vLLM 0.10.0 在 H100 滿載的基準測試，Infire 吞吐量高出最多 20%。支援 Tensor-Parallel 與 Pipeline-Parallel 部署 MoE 模型。

Unweight 是無損 MLP 權重壓縮系統，可將模型大小縮減 15–22%，輸出完全等價（Bit-exact），無精度損失、無量化誤差。

實戰筆記

分離式 Prefill/Decode 是高吞吐推論的架構方向，vLLM 與 SGLang 也在朝同一方向演進。若你在 H100 上執行開源模型，值得以正式環境工作負載對比 Infire。Unweight 的 22% 無損壓縮若屬實，可直接改變 GPU 容量規劃——閱讀研究論文 PDF 前不宜輕易採信，但值得驗證。

Cloudflare Infire — 分離式推論架構比 vLLM 快 20%，Unweight 無損壓縮縮小模型 22%

實戰筆記

來源

標籤