Google משחררת את DiffusionGemma: מודל diffusion פתוח ב-1,000+ tokens לשנייה

Google הציגה את DiffusionGemma, מודל פתוח שמייצר טקסט באמצעות diffusion במקום הגישה האוטו-רגרסיבית הסטנדרטית, מה שמאפשר פלט מהיר בצורה דרמטית. Jack Rae מ-DeepMind ציטט מהירויות שעוברות 1,000 token לשנייה על H100 ומעל 700 על RTX 5090 צרכני, וכותבים ב-Hacker News כינו את יצירת הטקסט המקבילית פי-4 שלו 'רגע מכונן' שמעביר את צוואר הבקבוק מרוחב פס של זיכרון אל המחשוב.
NVIDIA שחררה גרסה מכוונת ומכווצת, DiffusionGemma 26B-A4B-it-NVFP4, שתומכת בחלון context של 256K token, mode חשיבה שניתן להגדרה, function calling נייטיב, ו-inference רב-לשוני על פני יותר מ-35 שפות — ומגיעה ליותר מ-1,100 token לשנייה על Hopper H100 ב-FP8. שיתוף הפעולה מדגים co-design הדוק של חומרה-תוכנה בין DeepMind ל-NVIDIA על גבי שחרור כמודל פתוח.
יצירת טקסט מבוססת diffusion הייתה זמן רב סקרנות מחקרית; מודל פתוח ברמת production מ-Google שמגיע למהירויות כאלה עשוי לאפס את הציפיות לגבי inference מקומי ורגיש-latency. הוא היה ללא ספק חביב השיח של המפתחים השבוע, בניגוד למחלוקת סביב המודלים המובילים הסגורים והכבולים ב-guardrails. השאלה הספקנית היא האם diffusion LLM משתווים לאיכות האוטו-רגרסיבית במשימות reasoning קשות, או שהרווחים במהירות מגיעים עם פשרות בדיוק או בקוהרנטיות — משהו שהמודל הפתוח יאפשר לקהילה לבחון במהירות. עבור מי שמריצים בעצמם ב-r/LocalLLaMA, הסיכוי למהירות ברמת המודלים המובילים על GPU צרכני יחיד הוא הכותרת.