Gemma 4 QAT 版殺到:手機同 laptop 跑本機 AI 終於冇咁食 RAM
3C 產品

Gemma 4 QAT 版殺到:手機同 laptop 跑本機 AI 終於冇咁食 RAM

圖片:via Android Authority — https://www.androidauthority.com/gemma-4-qat-models-3675172/
TechLab 編輯部(譯)·

Google 用 QAT 壓低 RAM 門檻,本機 AI 更貼近日常硬件

Google 今次推 Gemma 4 QAT checkpoints,重點係本機 AI 門檻再低一截。QAT 版涵蓋 E2B、E4B、12B、26B A4B 同 31B;手機向嘅 mobile 格式只落喺 E2B 同 E4B。Google 官方文件列出,E2B mobile 約 1.1GB、text-only 約 0.84GB;E4B mobile 約 2.5GB、text-only 約 2.2GB。呢啲係載入模型權重估算,唔包長 prompt 之後 KV cache 同 runtime 額外開銷。

QAT 點解值得睇

常見 PTQ 係訓練完先將權重壓低精度,慳 RAM 但容易跌質素。QAT 係訓練期間已經模擬低精度,等模型適應壓縮誤差,所以壓細後比較少走樣。Google 呢次 mobile schema 預先計好 activation scale、用 channel-wise quantization、對生成 token 部分落 2-bit,再壓 embedding 同 KV cache。講人話,就係少啲即時計數、少啲 RAM 壓力,速度都有機會穩定啲。

Google Gemma 4 QAT 官方文章主視覺,展示模型壓縮同本機 AI 方向

圖片:Google

真正影響喺工作流

呢件事對一般買機人唔等於所有 Android 手機忽然都識跑大模型。真正受惠係幾類 workflow:出街用 laptop 離線問文件、喺公司機處理內部 PDF、developer 用 local coding agent 做初步改 code、或者手機上做簡單摘要同語音/相片理解。尤其係公司資料唔想丟上雲端,細模型本機跑有私隱同延遲優勢;但模型細咗,答案深度、長 context 同多模態能力仍然會受限制。

12B 版本就係 laptop 位。Google 早兩日先話 Gemma 4 12B 可喺 16GB RAM/unified memory 級別嘅 consumer laptop 本機跑;今次 Q4_0 QAT 文件列出 12B 權重載入約 6.7GB。呢個數字唔代表你開住 browser、IDE、Docker 都順滑,只係令「試得到」嘅門檻更清楚。MacBook 用 MLX,Windows/Linux 用 LM Studio、Ollama、llama.cpp,路線都比上一代成熟。

Google 官方 Gemma 4 QAT RAM 需求圖,列出各種量化格式嘅載入需求

圖片:Google

開發者要睇格式

對 developer 嚟講,重點係格式唔再得一條路:llama.cpp / LM Studio 用 GGUF;vLLM / SGLang 有 compressed tensors;mobile deployment 有 LiteRT-LM 同 Transformers.js。Hugging Face collection 顯示 Q4_0 版有 E2B、E4B、12B、26B A4B、31B,而 mobile collection 主要係 E2B/E4B。測試時先睇三樣:RAM 同 context 長度runtime任務範圍。官方數字只計載入權重,長 prompt 會再食 KV cache;同一模型換 runtime,體驗可以差好遠。

我嘅睇法:QAT 版最大價值係將「夠用、可離線、資料留喺機入面」做得更實。最啱落喺實際工作流:讀你手上嗰份文件、整理 notes、起 code review 草稿、或者冇網時做低延遲助手。限制都要講清楚:低 RAM 唔代表低耗電,手機散熱、NPU 支援、app runtime 同模型格式都會影響體驗。今次值得追,因為 Google 將硬件門檻寫得更實,developer 可以用真機驗證,少啲淨係睇 demo。

Gemma 4 12B 官方主圖,展示 laptop 本機多模態 AI 定位

圖片:Google


參考來源

本文根據原文及公開資料整理;資料有出入時,以原文及官方資料為準。