2026-06-09 — 回閲覧
GoogleがGemma 4ファミリー全体にQATチェックポイントを公開:Q4_0重みでBF16に迫る品質
2026年6月5日、GoogleはGemma 4全サイズに量子化認識訓練(QAT)チェックポイントを公開。Q4_0でE4Bは15GBから5GBへ、テキスト専用E2Bは1GB未満に。llama.cpp、Ollama、MLX、vLLM、SGLangが初日からサポート。
何が公開されたのか
2026年6月5日、GoogleはHugging Face上でGemma 4ファミリーの量子化認識訓練(QAT)チェックポイントを公開した。スマートフォン級のE2BとE4Bから、わずか2日前の6月3日に登場したばかりのエンコーダレス・マルチモーダル12B、そして26B-A4BのMixture-of-Experts(MoE)版までを網羅する。提供フォーマットは2種類。デスクトップ推論エンジン向けの標準Q4_0コレクションと、トークン生成層を2-bitまで圧縮し、チャネル単位(channel-wise)量子化を採用し、エッジアクセラレータ向けに活性化を静的に固定する新しいモバイル特化スキーマだ。
初日の量子化リリースとしては、対応ランタイムのリストが異例なほど広い。アナウンスではllama.cpp、Ollama、LM Studio、vLLM、SGLang、MLX、LiteRT-LM、Transformers.js、Unsloth、Hugging Face Transformersが名指しされている。ユニファイドメモリのハードウェアでモデルを動かす人にとって、ここが最も重要な点だ——量子化をコミュニティ任せにするのではなく、モデルベンダー自身が正規の4-bit成果物を出荷する時代になった。
主要な数字
| モデル | BF16フットプリント | QATフットプリント | フォーマット |
|---|---|---|---|
| E2B(テキスト専用) | 9.6 GB | 1 GB未満 | モバイル特化 |
| E2B(マルチモーダル、iOS) | — | アクティブRAM 607 MB | LiteRT-LM |
| E4B | 15 GB | 5 GB | Q4_0 |
| 12B | 約24 GB | 約7 GB | Q4_0 |
このリリースを「またひとつのGGUF再量子化」と分けるのは品質の主張だ。QATは訓練中に量子化ノイズをシミュレートするため、重みは4-bit丸めに耐えられる値へ自ら収束する。GoogleはQATの結果が「標準的なPTQベースラインと比べて全体品質はむしろ高い」と報告しており、前世代のデータもこの手法を裏付ける。Gemma 3では、QATは訓練後量子化(PTQ)に対して量子化によるパープレキシティ劣化を54%削減した。モバイルシリコンでは、E2BのQATビルドがiOS Metal上で毎秒56トークン、Android OpenCL上で毎秒52トークンのデコード速度を記録したと報じられている。
なぜQATは事後量子化に勝るのか
ローカル推論ユーザーの大半が動かしているのは、コミュニティ製の訓練後量子化版だ。BF16のリリースを取得し、キャリブレーションを一回走らせ、K-quantsやQ4_0に丸め、出てきた品質をそのまま受け入れる。このプロセスはキャリブレーションデータセットに完全に左右され、外れ値チャネル(outlier channels)への打撃が最も大きくなりがちだ。QATは問題を上流へ移す——ファインチューニングのループ自体が疑似量子化された重みを見るため、オプティマイザはモデルが出荷される前に精度の崖を迂回する。結果として得られるのは、BF16モデルの劣化コピーではなく、BF16モデルそのもののように振る舞う4-bitファイルだ。
モバイルスキーマは、コミュニティのPTQツールチェーンが通常生み出せる範囲を超えている。2-bitのトークン生成層と静的活性化の組み合わせは、訓練時の協調を必要とする混合精度レシピであり、事後のllama-quantizeでは再現できない。
帯域律速のローカルハードウェアにとっての意味
DGX Spark級のユニファイドメモリマシンでは、デコードスループットを決めるのは計算能力ではなく、トークンごとにストリーミングする重みのバイト数だ。Q4_0のQATチェックポイントは、従来のPTQの品質コストなしに4-bitのバイト数を与えてくれる——これはローカル推論ユーザーが何年も渋々受け入れてきたトレードオフそのものだ。12Bは約7 GBで、128 GBのユニファイドメモリ予算の大部分をKVキャッシュに残せる。このモデルは256,000トークンのコンテキストウィンドウを備えているため、これは重要だ。長文コンテキストの作業こそ、節約したメモリが単なる余裕ではなく能力に直接変換される場面である。
5 GBのE4Bは、メインモデルと常駐並行させてユーティリティワーカー——要約、ルーティング、構造化抽出——として使えるほど小さく、主要なサービングジョブのメモリ予算を目立って削ることもない。
実務メモ
Q4_0とモバイルフォーマットのコレクションはHugging Face上にあり、Ollamaは公式ビルドをqatタグで提供している。初期レポートから注意点が2つ。第一に、Ollamaには現在Gemma 4モデルのツールコール(tool-calling)バグが残っており、構造化ツールコールに依存するエージェントワークロードは、修正されるまでllama.cppを使うのが推奨ルートだ。第二に、名前の衝突に注意。6月5日以前からBF16重みに対するコミュニティ製PTQ量子化版が出回っており、「gemma-4 Q4_0」という一般的な名前のファイルが必ずしもQAT成果物とは限らない。ベンチマークの前にチェックポイントの出自を検証しないと、測っているものを間違える。
見落とされがちな視点
ここでの戦略的転換は「量子化の所有権は誰のものか」だ。これまで、ローカルユーザーが実際に動かす4-bit成果物はコミュニティの産物だった——異なるキャリブレーションセットと異なる出自のK-quantsで継ぎ接ぎされたパッチワークだ。ベンダー公認のQATチェックポイントがモデルファミリー誕生5日目にして全サイズを網羅した今、正規の低精度成果物はそのモデルを訓練したラボ自身から出てくる。これは品質を標準化するが、同時に、2-bitトークン生成層のような訓練時の協調を必要とするレシピが、公式量子化版とコミュニティが事後に複製できるものとを今後ますます分かつことを意味する。他のラボも追随するだろうし、コミュニティの量子化シーンはベンダーが出荷しないサイズやフォーマットへ軸足を移していくはずだ。
Sources
- Gemma 4 with quantization-aware training — Google (official blog) ↗
- Gemma 4 QAT Cuts E2B to Under 1GB — Deploy It Now — byteiota ↗
- Google DeepMind launches Gemma 4 12B, bringing frontier AI model to everyday laptops — Tech Startups ↗
- Gemma 4 Goes Mobile: What Google's New QAT Checkpoints Mean for On-Device AI — DEV Community ↗
- Gemma 4 QAT Self-Hosting Guide: Ollama, llama.cpp, vLLM — Lushbinary ↗