GoogleJune 3, 20261 מקורות

מודל open שרץ על לפטופ של 16GB: Gemma 4 12B של Google שובר את הכללים

ניתוח AI

Google שחררה את Gemma 4 12B, מודל open-weights בן 11.95 מיליארד פרמטרים תחת רישיון Apache 2.0 מתירני, שתוכנן לרוץ כולו locally על laptop ארגוני טיפוסי עם 16GB של VRAM או זיכרון מאוחד בלבד. החידוש המרכזי שלו הוא ארכיטקטורת 'Unified' נטולת-encoder: במקום לנתב audio ותמונות דרך מודולי encoder נפרדים, גלי audio גולמיים ו-patches ויזואליים מוקרנים ישירות אל מרחב ה-embedding של ה-LLM המרכזי דרך שכבות לינאריות קלות-משקל (נתיב הראייה משתמש במודול בן 35M פרמטרים), מה שחותך גם latency וגם תקורת זיכרון.

המודל אורז context window בן 256K tokens, שימוש agentic מובנה בכלים, ומצב reasoning מפורש שלב-אחר-שלב. הוא ניתן להורדה מיידית ב-Hugging Face וב-Kaggle ורץ דרך AI Edge Gallery של Google, שהושק זה עתה על macOS כך שמשתמשי Mac יכולים להריץ את Gemma locally. Sundar Pichai כינה אותו 'נקודת האיזון בין גודל לביצועים', והווריאנטים מבוססי quantization-aware-training (QAT) (285 נקודות ב-HN) דוחפים את היעילות הלאה.

זה ההימור של Google על תנועת ה-local-AI המתגברת — פרטיות, שימוש offline ואפס עלות per-token — בתחרות ישירה מול laptops של RTX Spark מבית NVIDIA, מול המהלך ה-on-device של Intel/Perplexity, ומול מודלי Aion הקטנים ל-Windows שהכריזה עליהם Microsoft ב-Build. פוסט ב-r/artificial — 'הרצתי gemma 4 12b על ה-3090 שלי אתמול ואני חושב שמשחק המודלים המקומיים פשוט השתנה' (108 upvotes) — תפס את התלהבות המפתחים.

האזהרה הגיעה באותו שבוע: פרצת RCE ב-Hugging Face Transformers (CVE-2026-4372) הזכירה לקהילת המודלים המקומיים שה-supply chain שמשלח את ה-weights האלה נושא סיכון משלו. שווה לעקוב אחרי מדדי אימוץ ואחרי השאלה האם העיצוב נטול-ה-encoder שומר על איכות מול יריבים רב-מודליים מבוססי-encoder.

מקורות

9to5mac.com

https://9to5mac.com/2026/06/03/google-ai-edge-gallery-launches-to-macos-letting-mac-users-run-gemini-models-locally/