Builder Daily

2026-05-04

Cloudflare Infire — 分離型LLM推論でvLLMを20%上回る。Unweightが22%無損失圧縮を実現

CloudflareのRust製Infireエンジンがプリフィル/デコード分離アーキテクチャでH100満負荷時にvLLM 0.10比20%高スループットを達成。Unweightは15–22%の無損失重み圧縮を実現。

CloudflareがWorkers AIを支える2つの新システムを公開しました。InfireはRust製推論エンジンで、プリフィル(プロンプト処理)とデコード(トークン生成)を別々のGPUプールで実行する分離アーキテクチャを採用。H100満負荷でvLLM 0.10.0比最大20%高いスループットを記録しました。

UnweightはMLP重みの無損失圧縮システムで、モデルサイズを15–22%削減しながらビット単位で完全に等価な出力を保証します。

実装ノート

プリフィル/デコード分離はvLLMやSGLangも同方向に進化中で、高スループット推論のアーキテクチャ的方向性です。H100でオープンソースモデルを運用しているなら、本番ワークロードでInfireと比較検証する価値があります。Unweightの22%無損失圧縮が実証されれば、GPU容量計画を根本的に見直せます。


ソース

タグ

チップ