
Gemma 4 QAT 版殺到:手機同 laptop 跑本機 AI 終於冇咁食 RAM
Google 用 QAT 壓低 RAM 門檻,本機 AI 更貼近日常硬件
Google 今次推 Gemma 4 QAT checkpoints,重點係本機 AI 門檻再低一截。QAT 版涵蓋 E2B、E4B、12B、26B A4B 同 31B;手機向嘅 mobile 格式只落喺 E2B 同 E4B。Google 官方文件列出,E2B mobile 約 1.1GB、text-only 約 0.84GB;E4B mobile 約 2.5GB、text-only 約 2.2GB。呢啲係載入模型權重估算,唔包長 prompt 之後 KV cache 同 runtime 額外開銷。
QAT 點解值得睇
常見 PTQ 係訓練完先將權重壓低精度,慳 RAM 但容易跌質素。QAT 係訓練期間已經模擬低精度,等模型適應壓縮誤差,所以壓細後比較少走樣。Google 呢次 mobile schema 預先計好 activation scale、用 channel-wise quantization、對生成 token 部分落 2-bit,再壓 embedding 同 KV cache。講人話,就係少啲即時計數、少啲 RAM 壓力,速度都有機會穩定啲。

圖片:Google
真正影響喺工作流
呢件事對一般買機人唔等於所有 Android 手機忽然都識跑大模型。真正受惠係幾類 workflow:出街用 laptop 離線問文件、喺公司機處理內部 PDF、developer 用 local coding agent 做初步改 code、或者手機上做簡單摘要同語音/相片理解。尤其係公司資料唔想丟上雲端,細模型本機跑有私隱同延遲優勢;但模型細咗,答案深度、長 context 同多模態能力仍然會受限制。
12B 版本就係 laptop 位。Google 早兩日先話 Gemma 4 12B 可喺 16GB RAM/unified memory 級別嘅 consumer laptop 本機跑;今次 Q4_0 QAT 文件列出 12B 權重載入約 6.7GB。呢個數字唔代表你開住 browser、IDE、Docker 都順滑,只係令「試得到」嘅門檻更清楚。MacBook 用 MLX,Windows/Linux 用 LM Studio、Ollama、llama.cpp,路線都比上一代成熟。

圖片:Google
開發者要睇格式
對 developer 嚟講,重點係格式唔再得一條路:llama.cpp / LM Studio 用 GGUF;vLLM / SGLang 有 compressed tensors;mobile deployment 有 LiteRT-LM 同 Transformers.js。Hugging Face collection 顯示 Q4_0 版有 E2B、E4B、12B、26B A4B、31B,而 mobile collection 主要係 E2B/E4B。測試時先睇三樣:RAM 同 context 長度、runtime、任務範圍。官方數字只計載入權重,長 prompt 會再食 KV cache;同一模型換 runtime,體驗可以差好遠。
我嘅睇法:QAT 版最大價值係將「夠用、可離線、資料留喺機入面」做得更實。最啱落喺實際工作流:讀你手上嗰份文件、整理 notes、起 code review 草稿、或者冇網時做低延遲助手。限制都要講清楚:低 RAM 唔代表低耗電,手機散熱、NPU 支援、app runtime 同模型格式都會影響體驗。今次值得追,因為 Google 將硬件門檻寫得更實,developer 可以用真機驗證,少啲淨係睇 demo。

圖片:Google
參考來源
- Android Authority — The latest Gemma 4 models use a training trick to slash their on-device memory footprint — original report
- Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency — Google 官方發佈,核實 QAT、mobile schema、E2B text-only less than 1GB、下載路線。
- Gemma 4 model overview — 官方 docs,核實 E2B/E4B/12B/26B/31B 規格、RAM 表、QAT 格式路線。
- Gemma 4 QAT Mobile - Hugging Face Collection — 核實 mobile QAT collection 主要有 E2B/E4B 模型。
- Gemma 4 QAT Q4_0 - Hugging Face Collection — 核實 Q4_0 collection 覆蓋 E2B/E4B/12B/26B A4B/31B 同 GGUF 等格式。
- Introducing Gemma 4 12B: a unified, encoder-free multimodal model — 核實 12B laptop 定位、16GB RAM/unified memory 說法同本機多模態背景。
本文根據原文及公開資料整理;資料有出入時,以原文及官方資料為準。


