2026-05-04

Cloudflare Infire — 분리형 LLM 추론으로 vLLM 대비 20% 향상, Unweight 22% 무손실 압축

Cloudflare의 Rust 기반 Infire 엔진이 프리필/디코드 분리 아키텍처로 H100 풀로드 시 vLLM 0.10 대비 20% 높은 처리량 달성. Unweight는 15–22% 무손실 가중치 압축 실현.

Cloudflare가 Workers AI를 구동하는 두 가지 새로운 시스템을 공개했습니다. Infire는 Rust로 작성된 추론 엔진으로 프리필(프롬프트 처리)과 디코드(토큰 생성)를 별도 GPU 풀에서 실행하는 분리 아키텍처를 채택했습니다. H100 풀로드 기준 vLLM 0.10.0 대비 최대 20% 높은 처리량을 기록했습니다.

Unweight는 MLP 가중치 무손실 압축 시스템으로 모델 크기를 15–22% 줄이면서 비트 단위로 동일한 출력을 보장합니다.

실전 노트

프리필/디코드 분리는 고처리량 추론의 아키텍처 방향성으로 vLLM과 SGLang도 같은 방향으로 진화 중입니다. H100에서 오픈소스 모델을 운영한다면 프로덕션 워크로드로 Infire와 비교 테스트할 가치가 있습니다. Unweight의 22% 무손실 압축이 검증된다면 GPU 용량 계획을 근본적으로 바꿀 수 있습니다.

Cloudflare Infire — 분리형 LLM 추론으로 vLLM 대비 20% 향상, Unweight 22% 무손실 압축

실전 노트

출처

태그