Skip to content
AI-Daily-Builder

2026-06-09 次瀏覽

Google 為整個 Gemma 4 家族推出 QAT 檢查點:Q4_0 權重達到接近 BF16 的品質

2026 年 6 月 5 日,Google 為所有 Gemma 4 尺寸發布量化感知訓練(QAT)檢查點。Q4_0 讓 E4B 從 15GB 降至 5GB、純文字 E2B 降到 1GB 以下,llama.cpp、Ollama、MLX、vLLM 與 SGLang 首日即支援。

發布了什麼

2026 年 6 月 5 日,Google 在 Hugging Face 上為 Gemma 4 家族發布了量化感知訓練(QAT)檢查點——從手機級的 E2B 與 E4B,到兩天前(6 月 3 日)才剛推出的無編碼器多模態 12B,再到 26B-A4B 混合專家(MoE)版本。提供兩種格式:一是面向桌面推理引擎的標準 Q4_0 系列,二是全新的行動裝置專用方案——將 token 生成層壓到 2-bit、採用逐通道(channel-wise)量化,並針對邊緣加速器靜態固定激活值。

對一個首日量化發布而言,這份執行環境支援清單異常地廣:公告中點名了 llama.cpp、Ollama、LM Studio、vLLM、SGLang、MLX、LiteRT-LM、Transformers.js、Unsloth 與 Hugging Face Transformers。對在統一記憶體硬體上跑模型的人來說,這是最關鍵的部分——現在是模型廠商自己出貨權威的 4-bit 成品,而不是把量化丟給社群處理。

關鍵數字

模型BF16 佔用QAT 佔用格式
E2B(純文字)9.6 GB低於 1 GB行動裝置專用
E2B(多模態,iOS)607 MB 活躍 RAMLiteRT-LM
E4B15 GB5 GBQ4_0
12B約 24 GB約 7 GBQ4_0

品質主張才是這次發布與「又一個 GGUF 重新量化」的分水嶺。因為 QAT 在訓練期間就模擬量化雜訊,權重會自行收斂到能撐過 4-bit 捨入的數值。Google 表示 QAT 結果「相比標準 PTQ 基線整體品質甚至更高」,而上一代的數據也支持這個方法:在 Gemma 3 上,QAT 相對於訓練後量化(PTQ)將量化造成的困惑度(perplexity)損失減少了 54%。在行動晶片上,媒體報導 E2B 的 QAT 版本在 iOS Metal 上解碼速度達每秒 56 個 token,在 Android OpenCL 上達每秒 52 個 token。

為什麼 QAT 勝過事後量化

大多數本地推理使用者跑的是社群製作的訓練後量化版本:拿 BF16 原版,跑一輪校準,捨入成 K-quants 或 Q4_0,然後接受掉出來的任何品質。這個過程完全受校準資料集擺布,而且往往對離群通道(outlier channels)打擊最重。QAT 把問題搬到上游——微調迴圈本身看到的就是偽量化權重,所以最佳化器在模型出貨之前就繞過了精度懸崖。結果是一個 4-bit 檔案,行為像 BF16 模型本身,而不是它的劣化副本。

行動裝置方案走得比社群 PTQ 工具鏈通常能產出的更遠:2-bit token 生成層加上靜態激活值,是一種需要訓練階段配合的混合精度配方。你無法用事後的 llama-quantize 重現它。

對頻寬受限的本地硬體意味著什麼

對 DGX Spark 級別的統一記憶體機器來說,解碼吞吐量取決於每個 token 要串流多少權重位元組,而不是算力。Q4_0 QAT 檢查點給你 4-bit 的位元組數,卻沒有以往 PTQ 的品質代價——這正是本地推理使用者多年來不情願做的取捨。12B 約 7 GB,把 128 GB 統一記憶體預算的大部分留給 KV cache,這很重要,因為這個模型帶有 256,000 token 的上下文視窗:長上下文工作正是省下的記憶體直接轉化為能力、而非僅僅是餘裕的地方。

5 GB 的 E4B 小到可以與主力模型常駐並行,當作工具型工作者——摘要、路由、結構化抽取——而不會明顯侵蝕主要服務任務的記憶體預算。

實務提醒

Q4_0 與行動格式系列都在 Hugging Face 上,Ollama 以 qat 標籤提供官方版本。早期報告有兩點警告。第一,Ollama 目前有一個 Gemma 4 模型的工具呼叫(tool-calling)bug 尚未修復,所以依賴結構化工具呼叫的 agent 工作負載,建議在修補前走 llama.cpp。第二,注意命名衝突:在 6 月 5 日之前,社群對 BF16 權重做的 PTQ 量化版已在流通,一個泛稱「gemma-4 Q4_0」的檔案不一定是 QAT 成品。跑基準測試前先驗證檢查點的來源血統,否則你量到的會是錯的東西。

容易被忽略的角度

這裡的戰略轉變在於:量化的所有權歸誰。直到現在,本地使用者實際跑的 4-bit 成品都是社群產物——一張由不同校準資料集、不同出處拼成的 K-quants 百衲被。當廠商認證的 QAT 檢查點在模型家族誕生第五天就覆蓋全系列,權威的低精度成品如今出自訓練該模型的實驗室本身。這讓品質標準化,但也意味著像 2-bit token 生成層這種需要訓練階段配合的配方,將越來越把官方量化版與社群事後能複製的東西區隔開來。可以預期其他實驗室會跟進,也可以預期社群量化圈將轉向專注於廠商不願出貨的尺寸與格式。


Sources

請喝咖啡