Gemma 4 QAT 版殺到：手機同 laptop 跑本機 AI 終於冇咁食 RAM

圖片：via Android Authority — https://www.androidauthority.com/gemma-4-qat-models-3675172/

TechLab 編輯部（譯）·2026-06-05

Google 用 QAT 壓低 RAM 門檻，本機 AI 更貼近日常硬件

Google 今次推 Gemma 4 QAT checkpoints，重點係本機 AI 門檻再低一截。QAT 版涵蓋 E2B、E4B、12B、26B A4B 同 31B；手機向嘅 mobile 格式只落喺 E2B 同 E4B。Google 官方文件列出，E2B mobile 約 1.1GB、text-only 約 0.84GB；E4B mobile 約 2.5GB、text-only 約 2.2GB。呢啲係載入模型權重估算，唔包長 prompt 之後 KV cache 同 runtime 額外開銷。

QAT 點解值得睇

常見 PTQ 係訓練完先將權重壓低精度，慳 RAM 但容易跌質素。QAT 係訓練期間已經模擬低精度，等模型適應壓縮誤差，所以壓細後比較少走樣。Google 呢次 mobile schema 預先計好 activation scale、用 channel-wise quantization、對生成 token 部分落 2-bit，再壓 embedding 同 KV cache。講人話，就係少啲即時計數、少啲 RAM 壓力，速度都有機會穩定啲。

Google Gemma 4 QAT 官方文章主視覺，展示模型壓縮同本機 AI 方向

圖片：Google

真正影響喺工作流

呢件事對一般買機人唔等於所有 Android 手機忽然都識跑大模型。真正受惠係幾類 workflow：出街用 laptop 離線問文件、喺公司機處理內部 PDF、developer 用 local coding agent 做初步改 code、或者手機上做簡單摘要同語音／相片理解。尤其係公司資料唔想丟上雲端，細模型本機跑有私隱同延遲優勢；但模型細咗，答案深度、長 context 同多模態能力仍然會受限制。

12B 版本就係 laptop 位。Google 早兩日先話 Gemma 4 12B 可喺 16GB RAM／unified memory 級別嘅 consumer laptop 本機跑；今次 Q4_0 QAT 文件列出 12B 權重載入約 6.7GB。呢個數字唔代表你開住 browser、IDE、Docker 都順滑，只係令「試得到」嘅門檻更清楚。MacBook 用 MLX，Windows/Linux 用 LM Studio、Ollama、llama.cpp，路線都比上一代成熟。

Google 官方 Gemma 4 QAT RAM 需求圖，列出各種量化格式嘅載入需求

圖片：Google

開發者要睇格式

對 developer 嚟講，重點係格式唔再得一條路：llama.cpp / LM Studio 用 GGUF；vLLM / SGLang 有 compressed tensors；mobile deployment 有 LiteRT-LM 同 Transformers.js。Hugging Face collection 顯示 Q4_0 版有 E2B、E4B、12B、26B A4B、31B，而 mobile collection 主要係 E2B/E4B。測試時先睇三樣：RAM 同 context 長度、runtime、任務範圍。官方數字只計載入權重，長 prompt 會再食 KV cache；同一模型換 runtime，體驗可以差好遠。

我嘅睇法：QAT 版最大價值係將「夠用、可離線、資料留喺機入面」做得更實。最啱落喺實際工作流：讀你手上嗰份文件、整理 notes、起 code review 草稿、或者冇網時做低延遲助手。限制都要講清楚：低 RAM 唔代表低耗電，手機散熱、NPU 支援、app runtime 同模型格式都會影響體驗。今次值得追，因為 Google 將硬件門檻寫得更實，developer 可以用真機驗證，少啲淨係睇 demo。

Gemma 4 12B 官方主圖，展示 laptop 本機多模態 AI 定位