2026-06-09 — 次浏览

Google 为整个 Gemma 4 家族推出 QAT 检查点：Q4_0 权重达到接近 BF16 的质量

2026 年 6 月 5 日，Google 为所有 Gemma 4 尺寸发布量化感知训练（QAT）检查点。Q4_0 让 E4B 从 15GB 降至 5GB、纯文本 E2B 降到 1GB 以下，llama.cpp、Ollama、MLX、vLLM 与 SGLang 首日即支持。

发布了什么

2026 年 6 月 5 日，Google 在 Hugging Face 上为 Gemma 4 家族发布了量化感知训练（QAT）检查点——从手机级的 E2B 与 E4B，到两天前（6 月 3 日）才刚推出的无编码器多模态 12B，再到 26B-A4B 混合专家（MoE）版本。提供两种格式：一是面向桌面推理引擎的标准 Q4_0 系列，二是全新的移动端专用方案——将 token 生成层压到 2-bit、采用逐通道（channel-wise）量化，并针对边缘加速器静态固定激活值。

对一个首日量化发布而言，这份运行环境支持清单异常地广：公告中点名了 llama.cpp、Ollama、LM Studio、vLLM、SGLang、MLX、LiteRT-LM、Transformers.js、Unsloth 与 Hugging Face Transformers。对在统一内存硬件上跑模型的人来说，这是最关键的部分——现在是模型厂商自己交付权威的 4-bit 成品，而不是把量化丢给社区处理。

关键数字

模型	BF16 占用	QAT 占用	格式
E2B（纯文本）	9.6 GB	低于 1 GB	移动端专用
E2B（多模态，iOS）	—	607 MB 活跃 RAM	LiteRT-LM
E4B	15 GB	5 GB	Q4_0
12B	约 24 GB	约 7 GB	Q4_0

质量主张才是这次发布与”又一个 GGUF 重新量化”的分水岭。因为 QAT 在训练期间就模拟量化噪声，权重会自行收敛到能扛过 4-bit 舍入的数值。Google 表示 QAT 结果”相比标准 PTQ 基线整体质量甚至更高”，而上一代的数据也支持这个方法：在 Gemma 3 上，QAT 相对于训练后量化（PTQ）将量化造成的困惑度（perplexity）损失减少了 54%。在移动芯片上，媒体报道 E2B 的 QAT 版本在 iOS Metal 上解码速度达每秒 56 个 token，在 Android OpenCL 上达每秒 52 个 token。

为什么 QAT 胜过事后量化

大多数本地推理用户跑的是社区制作的训练后量化版本：拿 BF16 原版，跑一轮校准，舍入成 K-quants 或 Q4_0，然后接受掉出来的任何质量。这个过程完全受校准数据集摆布，而且往往对离群通道（outlier channels）打击最重。QAT 把问题搬到上游——微调循环本身看到的就是伪量化权重，所以优化器在模型交付之前就绕过了精度悬崖。结果是一个 4-bit 文件，行为像 BF16 模型本身，而不是它的劣化副本。

移动端方案走得比社区 PTQ 工具链通常能产出的更远：2-bit token 生成层加上静态激活值，是一种需要训练阶段配合的混合精度配方。你无法用事后的 llama-quantize 复现它。

对带宽受限的本地硬件意味着什么

对 DGX Spark 级别的统一内存机器来说，解码吞吐量取决于每个 token 要流式读取多少权重字节，而不是算力。Q4_0 QAT 检查点给你 4-bit 的字节数，却没有以往 PTQ 的质量代价——这正是本地推理用户多年来不情愿做的取舍。12B 约 7 GB，把 128 GB 统一内存预算的大部分留给 KV cache，这很重要，因为这个模型带有 256,000 token 的上下文窗口：长上下文工作正是省下的内存直接转化为能力、而非仅仅是余量的地方。

5 GB 的 E4B 小到可以与主力模型常驻并行，当作工具型工作者——摘要、路由、结构化抽取——而不会明显侵蚀主要服务任务的内存预算。

实务提醒

Q4_0 与移动格式系列都在 Hugging Face 上，Ollama 以 qat 标签提供官方版本。早期报告有两点警告。第一，Ollama 目前有一个 Gemma 4 模型的工具调用（tool-calling）bug 尚未修复，所以依赖结构化工具调用的 agent 工作负载，建议在修补前走 llama.cpp。第二，注意命名冲突：在 6 月 5 日之前，社区对 BF16 权重做的 PTQ 量化版已在流通，一个泛称”gemma-4 Q4_0”的文件不一定是 QAT 成品。跑基准测试前先验证检查点的来源血统，否则你测到的会是错的东西。

容易被忽略的角度

这里的战略转变在于：量化的所有权归谁。直到现在，本地用户实际跑的 4-bit 成品都是社区产物——一张由不同校准数据集、不同出处拼成的 K-quants 百衲被。当厂商认证的 QAT 检查点在模型家族诞生第五天就覆盖全系列，权威的低精度成品如今出自训练该模型的实验室本身。这让质量标准化，但也意味着像 2-bit token 生成层这种需要训练阶段配合的配方，将越来越把官方量化版与社区事后能复制的东西区隔开来。可以预期其他实验室会跟进，也可以预期社区量化圈将转向专注于厂商不愿交付的尺寸与格式。