Skip to content
AI-Daily-Builder

2026-06-09 회 조회

구글, Gemma 4 전체 패밀리에 QAT 체크포인트 공개: BF16에 근접한 품질의 Q4_0 가중치

2026년 6월 5일, 구글이 Gemma 4 전 사이즈에 양자화 인식 훈련(QAT) 체크포인트를 공개했다. Q4_0로 E4B는 15GB에서 5GB로, 텍스트 전용 E2B는 1GB 미만으로 줄었고 llama.cpp, Ollama, MLX, vLLM, SGLang이 첫날부터 지원한다.

무엇이 공개되었나

2026년 6월 5일, 구글은 Hugging Face에 Gemma 4 패밀리의 양자화 인식 훈련(QAT) 체크포인트를 공개했다. 스마트폰급 E2B와 E4B부터, 불과 이틀 전인 6월 3일에 출시된 인코더리스 멀티모달 12B, 그리고 26B-A4B Mixture-of-Experts(MoE) 버전까지 아우른다. 포맷은 두 가지다. 데스크톱 추론 엔진을 겨냥한 표준 Q4_0 컬렉션과, 토큰 생성 레이어를 2-bit까지 압축하고 채널 단위(channel-wise) 양자화를 적용하며 엣지 가속기를 위해 활성값을 정적으로 고정하는 새로운 모바일 특화 스키마다.

첫날 양자화 릴리스치고는 지원 런타임 목록이 이례적으로 넓다. 발표문에는 llama.cpp, Ollama, LM Studio, vLLM, SGLang, MLX, LiteRT-LM, Transformers.js, Unsloth, Hugging Face Transformers가 명시되어 있다. 통합 메모리 하드웨어에서 모델을 돌리는 사람에게는 이 부분이 가장 결정적이다. 이제는 양자화를 커뮤니티에 떠넘기는 대신, 모델 벤더가 직접 정식 4-bit 산출물을 출하하는 시대가 된 것이다.

핵심 수치

모델BF16 용량QAT 용량포맷
E2B(텍스트 전용)9.6 GB1 GB 미만모바일 특화
E2B(멀티모달, iOS)활성 RAM 607 MBLiteRT-LM
E4B15 GB5 GBQ4_0
12B약 24 GB약 7 GBQ4_0

이번 릴리스를 “또 하나의 GGUF 재양자화”와 구분 짓는 것은 품질 주장이다. QAT는 훈련 중에 양자화 노이즈를 시뮬레이션하므로, 가중치가 4-bit 반올림을 견딜 수 있는 값으로 스스로 수렴한다. 구글은 QAT 결과가 “표준 PTQ 베이스라인 대비 전체 품질이 오히려 더 높다”고 보고했으며, 전 세대 데이터도 이 방법을 뒷받침한다. Gemma 3에서 QAT는 훈련 후 양자화(PTQ) 대비 양자화로 인한 퍼플렉서티(perplexity) 저하를 54% 줄였다. 모바일 실리콘에서는 E2B QAT 빌드가 iOS Metal에서 초당 56토큰, Android OpenCL에서 초당 52토큰의 디코딩 속도를 기록했다고 보도되었다.

왜 QAT가 사후 양자화를 이기는가

로컬 추론 사용자 대부분이 돌리는 것은 커뮤니티가 만든 훈련 후 양자화 버전이다. BF16 릴리스를 받아 캘리브레이션을 한 차례 돌리고, K-quants나 Q4_0로 반올림한 뒤, 떨어져 나온 품질을 그대로 받아들인다. 이 과정은 캘리브레이션 데이터셋에 전적으로 좌우되며, 이상치 채널(outlier channels)에 가장 큰 타격을 주기 쉽다. QAT는 문제를 상류로 옮긴다. 파인튜닝 루프 자체가 가짜 양자화된 가중치를 보기 때문에, 옵티마이저는 모델이 출하되기 전에 정밀도 절벽을 우회한다. 그 결과물은 BF16 모델의 열화 복사본이 아니라 BF16 모델 자체처럼 동작하는 4-bit 파일이다.

모바일 스키마는 커뮤니티 PTQ 툴체인이 통상 만들어낼 수 있는 범위를 넘어선다. 2-bit 토큰 생성 레이어와 정적 활성값의 조합은 훈련 단계의 협조가 필요한 혼합 정밀도 레시피이며, 사후의 llama-quantize로는 재현할 수 없다.

대역폭에 묶인 로컬 하드웨어에서의 의미

DGX Spark급 통합 메모리 머신에서 디코드 처리량을 결정하는 것은 연산 능력이 아니라 토큰당 스트리밍해야 하는 가중치 바이트 수다. Q4_0 QAT 체크포인트는 기존 PTQ의 품질 비용 없이 4-bit 바이트 수를 제공한다. 이는 로컬 추론 사용자들이 수년간 마지못해 해온 바로 그 트레이드오프다. 12B는 약 7 GB로, 128 GB 통합 메모리 예산의 대부분을 KV 캐시에 남겨둘 수 있다. 이 모델이 256,000토큰 컨텍스트 윈도를 갖추고 있기에 이 점이 중요하다. 긴 컨텍스트 작업이야말로 절약된 메모리가 단순한 여유가 아니라 능력으로 직접 전환되는 지점이다.

5 GB의 E4B는 메인 모델과 상주 병행시켜 유틸리티 워커(요약, 라우팅, 구조화 추출)로 쓸 수 있을 만큼 작으며, 주 서빙 작업의 메모리 예산을 눈에 띄게 깎아먹지도 않는다.

실무 메모

Q4_0와 모바일 포맷 컬렉션은 Hugging Face에 있으며, Ollama는 공식 빌드를 qat 태그로 제공한다. 초기 보고에서 나온 주의점 두 가지. 첫째, Ollama에는 현재 Gemma 4 모델의 툴 콜링(tool-calling) 버그가 남아 있으므로, 구조화된 툴 콜에 의존하는 에이전트 워크로드는 패치 전까지 llama.cpp를 쓰는 것이 권장 경로다. 둘째, 이름 충돌에 주의하라. 6월 5일 이전부터 BF16 가중치에 대한 커뮤니티 PTQ 양자화판이 유통되고 있었고, “gemma-4 Q4_0”라는 일반적인 이름의 파일이 반드시 QAT 산출물인 것은 아니다. 벤치마크 전에 체크포인트의 출처 계보를 검증하지 않으면 엉뚱한 것을 측정하게 된다.

간과되기 쉬운 관점

여기서의 전략적 전환은 “양자화의 소유권이 누구에게 있는가”이다. 지금까지 로컬 사용자가 실제로 돌리는 4-bit 산출물은 커뮤니티의 산물이었다. 서로 다른 캘리브레이션 세트와 출처가 뒤섞인 K-quants 조각보였던 셈이다. 벤더 공인 QAT 체크포인트가 모델 패밀리 탄생 5일째에 전 사이즈를 커버한 지금, 정식 저정밀 산출물은 그 모델을 훈련한 연구소 자신에게서 나온다. 이는 품질을 표준화하지만, 동시에 2-bit 토큰 생성 레이어처럼 훈련 시점의 협조가 필요한 레시피가 공식 양자화판과 커뮤니티가 사후에 복제할 수 있는 것을 점점 더 갈라놓을 것임을 의미한다. 다른 연구소들도 뒤따를 것이고, 커뮤니티 양자화 씬은 벤더가 출하하지 않는 사이즈와 포맷으로 무게중심을 옮겨갈 것이다.


Sources

커피