2026-04-27

vLLM v0.20.0: DeepSeek V4, PyTorch 2.11, FlashAttention 4

vLLM v0.20.0: 커밋 752개, 기여자 320명. CUDA 13.0 기본화, PyTorch 2.11, Transformers v5, Python 3.14, FlashAttention 4 기본화, TurboQuant 2-bit KV cache 4배 용량.

vLLM v0.20.0은 대규모 릴리즈입니다. 커밋 752개, 기여자 320명. 핵심은 다음과 같습니다.

기본 CUDA 13.0으로 상향, PyTorch 2.11, Transformers v5 호환, Python 3.14 지원
FlashAttention 4 가 MLA prefill backend 기본값으로 재활성화
TurboQuant 2-bit KV cache 로 KV cache 용량을 4배로 늘리고 메모리 비용 감소
DeepSeek V4 / Hunyuan v3 / Granite 4.1 Vision 초기 지원

실전 노트

vLLM은 사실상 표준 오픈소스 추론 런타임입니다. CUDA 13 / PyTorch 2.11이 셀프호스팅의 진입 장벽을 높였습니다. 기존 base image는 v0.20.0 채택 전에 다시 빌드해야 합니다.

2-bit KV cache(TurboQuant)는 경제적으로 가장 큰 변화입니다. 동일한 GPU 메모리에서 KV 용량 4배를 의미하며, 같은 하드웨어 예산으로 더 긴 컨텍스트나 더 큰 batch를 돌릴 수 있다는 뜻입니다. 운영급 셀프호스팅 추론을 한다면 배포 계산식이 바뀝니다. 직접 품질 eval을 돌려 보세요. 2-bit KV는 긴 컨텍스트에서 보통 작지만 측정 가능한 영향이 있습니다.

출처

vLLM v0.20.0 release notes ↗

vLLM v0.20.0: DeepSeek V4, PyTorch 2.11, FlashAttention 4

실전 노트

출처

태그