태그 · #inference

Cloudflare Infire — 분리형 LLM 추론으로 vLLM 대비 20% 향상, Unweight 22% 무손실 압축

Cloudflare의 Rust 기반 Infire 엔진이 프리필/디코드 분리 아키텍처로 H100 풀로드 시 vLLM 0.10 대비 20% 높은 처리량 달성. Unweight는 15–22% 무손실 가중치 압축 실현.

vLLM v0.20.0: 커밋 752개, 기여자 320명. CUDA 13.0 기본화, PyTorch 2.11, Transformers v5, Python 3.14, FlashAttention 4 기본화, TurboQuant 2-bit KV cache 4배 용량.