Cloudflare Infire — 分离式推理架构比 vLLM 快 20%,Unweight 无损压缩缩小模型 22%
Cloudflare 以 Rust 开发的 Infire 推理引擎采用分离式 Prefill/Decode 架构,在 H100 满载下比 vLLM 0.10 高出 20% 吞吐量;伴随推出的 Unweight 可无损压缩模型权重 15–22%。
Cloudflare 以 Rust 开发的 Infire 推理引擎采用分离式 Prefill/Decode 架构,在 H100 满载下比 vLLM 0.10 高出 20% 吞吐量;伴随推出的 Unweight 可无损压缩模型权重 15–22%。
vLLM v0.20.0:752 commits、320 贡献者。默认 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 默认、TurboQuant 2-bit KV cache 4 倍容量。