2026-05-04
Cloudflare Infire — 分离式推理架构比 vLLM 快 20%,Unweight 无损压缩缩小模型 22%
Cloudflare 以 Rust 开发的 Infire 推理引擎采用分离式 Prefill/Decode 架构,在 H100 满载下比 vLLM 0.10 高出 20% 吞吐量;伴随推出的 Unweight 可无损压缩模型权重 15–22%。
Cloudflare 公开两套为 Workers AI 提供动力的新系统。Infire 是以 Rust 开发的推理引擎,核心是分离式 Prefill/Decode 架构,两者分别在独立 GPU 池执行各自独立扩缩。对比 vLLM 0.10.0 在 H100 满载的基准测试,Infire 吞吐量高出最多 20%。
Unweight 是无损 MLP 权重压缩系统,可将模型大小缩减 15–22%,输出完全等价(Bit-exact),无精度损失。
实战笔记
分离式 Prefill/Decode 是高吞吐推理的架构方向,vLLM 与 SGLang 也在朝同一方向演进。若你在 H100 上运行开源模型,值得以生产工作负载对比 Infire。Unweight 22% 无损压缩若属实,可直接改变 GPU 容量规划——阅读研究论文验证后再做决策。