2026-05-04

Cloudflare Infire — 分离式推理架构比 vLLM 快 20%，Unweight 无损压缩缩小模型 22%

Cloudflare 以 Rust 开发的 Infire 推理引擎采用分离式 Prefill/Decode 架构，在 H100 满载下比 vLLM 0.10 高出 20% 吞吐量；伴随推出的 Unweight 可无损压缩模型权重 15–22%。

Cloudflare 公开两套为 Workers AI 提供动力的新系统。Infire 是以 Rust 开发的推理引擎，核心是分离式 Prefill/Decode 架构，两者分别在独立 GPU 池执行各自独立扩缩。对比 vLLM 0.10.0 在 H100 满载的基准测试，Infire 吞吐量高出最多 20%。

Unweight 是无损 MLP 权重压缩系统，可将模型大小缩减 15–22%，输出完全等价（Bit-exact），无精度损失。

实战笔记

分离式 Prefill/Decode 是高吞吐推理的架构方向，vLLM 与 SGLang 也在朝同一方向演进。若你在 H100 上运行开源模型，值得以生产工作负载对比 Infire。Unweight 22% 无损压缩若属实，可直接改变 GPU 容量规划——阅读研究论文验证后再做决策。

Cloudflare Infire — 分离式推理架构比 vLLM 快 20%，Unweight 无损压缩缩小模型 22%

实战笔记

来源

标签