Google משיקה את Gemma 4 12B — מודל multimodal בלי encoder שרץ מקומית על לפטופ של 16GB

ב-Google שחררו את Gemma 4 12B, מודל open-weights בן 11.95 מיליארד פרמטרים תחת רישיון Apache 2.0 מתirani, שעבר אופטימיזציה לרוץ במלואו locally על laptop ארגוני טיפוסי בעזרת 16GB של VRAM או זיכרון מאוחד בלבד. הוא הוביל את Hacker News עם 1,018 נקודות ו-382 תגובות, ו-Sundar Pichai הציג אותו כפוגע ב-'נקודת המתיקות בין גודל לביצועים'.
החידוש המרכזי הוא ארכיטקטורת 'Unified' נטולת encoder. מערכות מולטימודליות מסורתיות משתמשות ב-encoders נפרדים כדי לתרגם נתוני אודיו ווידאו לייצוגים שה-LLM יכול לקרוא — מה שמוסיף latency ועומס זיכרון. Gemma 4, לעומת זאת, מאפשרת ל-waveforms של אודיו גולמי ול-visual patches לזרום ישירות ל-backbone של ה-LLM, ואורזת בתוך footprint קומפקטי חלון context של 256K tokens, שימוש אג'נטי מובנה בכלים, ומצב reasoning מפורש צעד-אחר-צעד.
אסטרטגית, Google הולכת נגד הזרם של 'גדול יותר זה טוב יותר' ומהמרת על תנועת ה-AI המקומי המתעצמת: שימוש offline בטיסות, deployments רגישי-פרטיות, ועלות אפס לכל token. המודל הושק מיד ב-Hugging Face וב-Kaggle, ו-Google הביאה את AI Edge Gallery ל-macOS כדי שמשתמשי Mac יוכלו להריץ מודלי Gemma locally — תחרות ישירה עם RTX Spark של NVIDIA ועם המהלכים של Intel ו-Perplexity ב-on-device.
ההסתייגות צצה כמעט מיד: פרצת remote code execution ב-Hugging Face Transformers — אותו runtime שרבים ישתמשו בו כדי לטעון את ה-weights הללו — הדגישה את סיכון שרשרת האספקה של ML. ובעוד שמפתחים הריעו לעיצוב נטול ה-encoder ב-HN, השאלה הפתוחה היא האם מודל מקומי בן 12B הוא 'טוב מספיק' לעבודה אג'נטית אמיתית, או רק fallback נוח למודלי frontier בענן.