Google2026-05-07

Gemma 4 מגיעה ל-inference מקומי מהיר פי 3 דרך speculative decoding; AI Ultra Lite ו-Gemini Agent מתכוננים ל-I/O

ניתוח AI

מודלי Gemma 4 הפתוחים של Google משתמשים ב-speculative decoding מבוסס multi-token-prediction לזירוז inference מקומי בעד פי 3, כשהווריאנט הגדול ביותר רץ על accelerator יחיד בעצמה גבוהה. Google גם מכינה שדרוג ל-'Gemini Agent' כשותף דיגיטלי 24/7, וכן מסלול 'AI Ultra Lite' זול יותר עם תקרות שימוש ברורות ל-Gemini — הכול לקראת Google I/O.