2026-06-09 — 次瀏覽

Google 為整個 Gemma 4 家族推出 QAT 檢查點：Q4_0 權重達到接近 BF16 的品質

2026 年 6 月 5 日，Google 為所有 Gemma 4 尺寸發布量化感知訓練（QAT）檢查點。Q4_0 讓 E4B 從 15GB 降至 5GB、純文字 E2B 降到 1GB 以下，llama.cpp、Ollama、MLX、vLLM 與 SGLang 首日即支援。

發布了什麼

2026 年 6 月 5 日，Google 在 Hugging Face 上為 Gemma 4 家族發布了量化感知訓練（QAT）檢查點——從手機級的 E2B 與 E4B，到兩天前（6 月 3 日）才剛推出的無編碼器多模態 12B，再到 26B-A4B 混合專家（MoE）版本。提供兩種格式：一是面向桌面推理引擎的標準 Q4_0 系列，二是全新的行動裝置專用方案——將 token 生成層壓到 2-bit、採用逐通道（channel-wise）量化，並針對邊緣加速器靜態固定激活值。

對一個首日量化發布而言，這份執行環境支援清單異常地廣：公告中點名了 llama.cpp、Ollama、LM Studio、vLLM、SGLang、MLX、LiteRT-LM、Transformers.js、Unsloth 與 Hugging Face Transformers。對在統一記憶體硬體上跑模型的人來說，這是最關鍵的部分——現在是模型廠商自己出貨權威的 4-bit 成品，而不是把量化丟給社群處理。

關鍵數字

模型	BF16 佔用	QAT 佔用	格式
E2B（純文字）	9.6 GB	低於 1 GB	行動裝置專用
E2B（多模態，iOS）	—	607 MB 活躍 RAM	LiteRT-LM
E4B	15 GB	5 GB	Q4_0
12B	約 24 GB	約 7 GB	Q4_0

品質主張才是這次發布與「又一個 GGUF 重新量化」的分水嶺。因為 QAT 在訓練期間就模擬量化雜訊，權重會自行收斂到能撐過 4-bit 捨入的數值。Google 表示 QAT 結果「相比標準 PTQ 基線整體品質甚至更高」，而上一代的數據也支持這個方法：在 Gemma 3 上，QAT 相對於訓練後量化（PTQ）將量化造成的困惑度（perplexity）損失減少了 54%。在行動晶片上，媒體報導 E2B 的 QAT 版本在 iOS Metal 上解碼速度達每秒 56 個 token，在 Android OpenCL 上達每秒 52 個 token。

為什麼 QAT 勝過事後量化

大多數本地推理使用者跑的是社群製作的訓練後量化版本：拿 BF16 原版，跑一輪校準，捨入成 K-quants 或 Q4_0，然後接受掉出來的任何品質。這個過程完全受校準資料集擺布，而且往往對離群通道（outlier channels）打擊最重。QAT 把問題搬到上游——微調迴圈本身看到的就是偽量化權重，所以最佳化器在模型出貨之前就繞過了精度懸崖。結果是一個 4-bit 檔案，行為像 BF16 模型本身，而不是它的劣化副本。

行動裝置方案走得比社群 PTQ 工具鏈通常能產出的更遠：2-bit token 生成層加上靜態激活值，是一種需要訓練階段配合的混合精度配方。你無法用事後的 llama-quantize 重現它。

對頻寬受限的本地硬體意味著什麼

對 DGX Spark 級別的統一記憶體機器來說，解碼吞吐量取決於每個 token 要串流多少權重位元組，而不是算力。Q4_0 QAT 檢查點給你 4-bit 的位元組數，卻沒有以往 PTQ 的品質代價——這正是本地推理使用者多年來不情願做的取捨。12B 約 7 GB，把 128 GB 統一記憶體預算的大部分留給 KV cache，這很重要，因為這個模型帶有 256,000 token 的上下文視窗：長上下文工作正是省下的記憶體直接轉化為能力、而非僅僅是餘裕的地方。

5 GB 的 E4B 小到可以與主力模型常駐並行，當作工具型工作者——摘要、路由、結構化抽取——而不會明顯侵蝕主要服務任務的記憶體預算。

實務提醒

Q4_0 與行動格式系列都在 Hugging Face 上，Ollama 以 qat 標籤提供官方版本。早期報告有兩點警告。第一，Ollama 目前有一個 Gemma 4 模型的工具呼叫（tool-calling）bug 尚未修復，所以依賴結構化工具呼叫的 agent 工作負載，建議在修補前走 llama.cpp。第二，注意命名衝突：在 6 月 5 日之前，社群對 BF16 權重做的 PTQ 量化版已在流通，一個泛稱「gemma-4 Q4_0」的檔案不一定是 QAT 成品。跑基準測試前先驗證檢查點的來源血統，否則你量到的會是錯的東西。

容易被忽略的角度

這裡的戰略轉變在於：量化的所有權歸誰。直到現在，本地使用者實際跑的 4-bit 成品都是社群產物——一張由不同校準資料集、不同出處拼成的 K-quants 百衲被。當廠商認證的 QAT 檢查點在模型家族誕生第五天就覆蓋全系列，權威的低精度成品如今出自訓練該模型的實驗室本身。這讓品質標準化，但也意味著像 2-bit token 生成層這種需要訓練階段配合的配方，將越來越把官方量化版與社群事後能複製的東西區隔開來。可以預期其他實驗室會跟進，也可以預期社群量化圈將轉向專注於廠商不願出貨的尺寸與格式。