タグ · #inference

Cloudflare Infire — 分離型LLM推論でvLLMを20%上回る。Unweightが22%無損失圧縮を実現

CloudflareのRust製Infireエンジンがプリフィル/デコード分離アーキテクチャでH100満負荷時にvLLM 0.10比20%高スループットを達成。Unweightは15–22%の無損失重み圧縮を実現。

04 MAY 3 MIN READ 実装ノート inference open-source nvidia release

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

vLLM v0.20.0：752 commits、320 名のコントリビューター。デフォルトで CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 がデフォルト、TurboQuant 2-bit KV cache で 4 倍の容量。

27 APR 3 MIN READ 実装ノート vllm inference open-source release