Gemma 4 12B על הלפטופ שלך: Google מביאה מודל on-device שרץ על 16GB

Google השיקה את Gemma 4 12B, מודל open-source שתוכנן לרוץ על המכשיר עצמו ומספק reasoning רב-שלבי שמתקרב לביצועים של מודל ה-mixture-of-experts בגודל 26B שלה — אבל רץ מקומית על לפטופ רגיל עם 16GB RAM בלבד. במקביל Google שחררה את אפליקציית AI Edge Gallery ל-Mac, שמורידה משמעותית את רף הכניסה למפתחים שרוצים להריץ מודלים חזקים בלי תלות בענן.
מה שתופס הכי הרבה תשומת לב בקהילת המפתחים זה ה-quantization-aware training (QAT): במקום לבצע quantization בדיעבד ולספוג פגיעה בדיוק, Gemma 4 מאומן עם quantization כחלק מהלולאה, מה ששומר על איכות גם ברזולוציות סיביות נמוכות. ב-r/LocalLLaMA זה התלקח (752 upvotes, 241 תגובות) עם דיונים שמפרקים את גישת ה-QAT ומשלבים אותה עם בניית homelab.
ההשקה מתיישבת בול עם תמה ברורה של השבוע: AI מקומי קודם כל. ה-RTX Spark של NVIDIA (128GB unified memory, מודלים מקומיים של 120B) ופרויקט toolkit מקומי ב-Rust כולם היו בטרנד באותם ימים — מה שמשקף תיאבון של מפתחים ל-inference פרטי על המכשיר, בלי daemon ובלי תשלום לפי token. מבחינה תחרותית, Gemma 4 12B מכוון לאותם מפתחים ש-Llama של Meta ו-Qwen של Alibaba מחזרים אחריהם — open weights כאסטרטגיית הפצה ורצון טוב. מה לבדוק: איכות בעולם האמיתי מול מודלים מתארחים גדולים יותר, ואיך QAT משנה את המשוואה ל-deploy על טלפונים ולפטופים.