Cloudflare Infire — 分離式推論架構比 vLLM 快 20%,Unweight 無損壓縮縮小模型 22%
Cloudflare 以 Rust 開發的 Infire 推論引擎採用分離式 Prefill/Decode 架構,在 H100 滿載下比 vLLM 0.10 高出 20% 吞吐量;伴隨推出的 Unweight 系統可無損壓縮模型權重 15–22%。
Cloudflare 以 Rust 開發的 Infire 推論引擎採用分離式 Prefill/Decode 架構,在 H100 滿載下比 vLLM 0.10 高出 20% 吞吐量;伴隨推出的 Unweight 系統可無損壓縮模型權重 15–22%。
vLLM v0.20.0:752 commits、320 貢獻者。預設 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 預設、TurboQuant 2-bit KV cache 4 倍容量。