2026-06-09 — 次浏览
Google 为整个 Gemma 4 家族推出 QAT 检查点:Q4_0 权重达到接近 BF16 的质量
2026 年 6 月 5 日,Google 为所有 Gemma 4 尺寸发布量化感知训练(QAT)检查点。Q4_0 让 E4B 从 15GB 降至 5GB、纯文本 E2B 降到 1GB 以下,llama.cpp、Ollama、MLX、vLLM 与 SGLang 首日即支持。
发布了什么
2026 年 6 月 5 日,Google 在 Hugging Face 上为 Gemma 4 家族发布了量化感知训练(QAT)检查点——从手机级的 E2B 与 E4B,到两天前(6 月 3 日)才刚推出的无编码器多模态 12B,再到 26B-A4B 混合专家(MoE)版本。提供两种格式:一是面向桌面推理引擎的标准 Q4_0 系列,二是全新的移动端专用方案——将 token 生成层压到 2-bit、采用逐通道(channel-wise)量化,并针对边缘加速器静态固定激活值。
对一个首日量化发布而言,这份运行环境支持清单异常地广:公告中点名了 llama.cpp、Ollama、LM Studio、vLLM、SGLang、MLX、LiteRT-LM、Transformers.js、Unsloth 与 Hugging Face Transformers。对在统一内存硬件上跑模型的人来说,这是最关键的部分——现在是模型厂商自己交付权威的 4-bit 成品,而不是把量化丢给社区处理。
关键数字
| 模型 | BF16 占用 | QAT 占用 | 格式 |
|---|---|---|---|
| E2B(纯文本) | 9.6 GB | 低于 1 GB | 移动端专用 |
| E2B(多模态,iOS) | — | 607 MB 活跃 RAM | LiteRT-LM |
| E4B | 15 GB | 5 GB | Q4_0 |
| 12B | 约 24 GB | 约 7 GB | Q4_0 |
质量主张才是这次发布与”又一个 GGUF 重新量化”的分水岭。因为 QAT 在训练期间就模拟量化噪声,权重会自行收敛到能扛过 4-bit 舍入的数值。Google 表示 QAT 结果”相比标准 PTQ 基线整体质量甚至更高”,而上一代的数据也支持这个方法:在 Gemma 3 上,QAT 相对于训练后量化(PTQ)将量化造成的困惑度(perplexity)损失减少了 54%。在移动芯片上,媒体报道 E2B 的 QAT 版本在 iOS Metal 上解码速度达每秒 56 个 token,在 Android OpenCL 上达每秒 52 个 token。
为什么 QAT 胜过事后量化
大多数本地推理用户跑的是社区制作的训练后量化版本:拿 BF16 原版,跑一轮校准,舍入成 K-quants 或 Q4_0,然后接受掉出来的任何质量。这个过程完全受校准数据集摆布,而且往往对离群通道(outlier channels)打击最重。QAT 把问题搬到上游——微调循环本身看到的就是伪量化权重,所以优化器在模型交付之前就绕过了精度悬崖。结果是一个 4-bit 文件,行为像 BF16 模型本身,而不是它的劣化副本。
移动端方案走得比社区 PTQ 工具链通常能产出的更远:2-bit token 生成层加上静态激活值,是一种需要训练阶段配合的混合精度配方。你无法用事后的 llama-quantize 复现它。
对带宽受限的本地硬件意味着什么
对 DGX Spark 级别的统一内存机器来说,解码吞吐量取决于每个 token 要流式读取多少权重字节,而不是算力。Q4_0 QAT 检查点给你 4-bit 的字节数,却没有以往 PTQ 的质量代价——这正是本地推理用户多年来不情愿做的取舍。12B 约 7 GB,把 128 GB 统一内存预算的大部分留给 KV cache,这很重要,因为这个模型带有 256,000 token 的上下文窗口:长上下文工作正是省下的内存直接转化为能力、而非仅仅是余量的地方。
5 GB 的 E4B 小到可以与主力模型常驻并行,当作工具型工作者——摘要、路由、结构化抽取——而不会明显侵蚀主要服务任务的内存预算。
实务提醒
Q4_0 与移动格式系列都在 Hugging Face 上,Ollama 以 qat 标签提供官方版本。早期报告有两点警告。第一,Ollama 目前有一个 Gemma 4 模型的工具调用(tool-calling)bug 尚未修复,所以依赖结构化工具调用的 agent 工作负载,建议在修补前走 llama.cpp。第二,注意命名冲突:在 6 月 5 日之前,社区对 BF16 权重做的 PTQ 量化版已在流通,一个泛称”gemma-4 Q4_0”的文件不一定是 QAT 成品。跑基准测试前先验证检查点的来源血统,否则你测到的会是错的东西。
容易被忽略的角度
这里的战略转变在于:量化的所有权归谁。直到现在,本地用户实际跑的 4-bit 成品都是社区产物——一张由不同校准数据集、不同出处拼成的 K-quants 百衲被。当厂商认证的 QAT 检查点在模型家族诞生第五天就覆盖全系列,权威的低精度成品如今出自训练该模型的实验室本身。这让质量标准化,但也意味着像 2-bit token 生成层这种需要训练阶段配合的配方,将越来越把官方量化版与社区事后能复制的东西区隔开来。可以预期其他实验室会跟进,也可以预期社区量化圈将转向专注于厂商不愿交付的尺寸与格式。
Sources
- Gemma 4 with quantization-aware training — Google (official blog) ↗
- Gemma 4 QAT Cuts E2B to Under 1GB — Deploy It Now — byteiota ↗
- Google DeepMind launches Gemma 4 12B, bringing frontier AI model to everyday laptops — Tech Startups ↗
- Gemma 4 Goes Mobile: What Google's New QAT Checkpoints Mean for On-Device AI — DEV Community ↗
- Gemma 4 QAT Self-Hosting Guide: Ollama, llama.cpp, vLLM — Lushbinary ↗