DiffusionGemma מהיר פי 4 ביצירת טקסט — ומותאם ל-GPU של NVIDIA

Google DeepMind חשפה את DiffusionGemma, מודל פתוח וניסיוני שמיישם טכניקות diffusion על יצירת טקסט. במקום לייצר token אחד בכל פעם, הוא משתמש ביצירה מקבילית — מעבד עד 256 tokens בכל צעד — ומשיג ביצועים מהירים עד פי 4 ליצירה מקומית וחד-משתמשית בעוזרי צ'אט, copilots ו-workflows מבוססי agent.
NVIDIA פרסמה מסלול deploy משלים, שמייעל את DiffusionGemma לרוץ מהר יותר על GPUs מסוג GeForce RTX, פלטפורמות RTX PRO ומערכות DGX Spark, כאשר שירותי ה-inference המבוססים על NVIDIA NIM מחליקים את המעבר מפיתוח לפרודקשן. שיתוף הפעולה ממחיש כיצד diffusion עבור טקסט נע מסקרנות מחקרית לעבר מנוף latency פרקטי.
הגישה חשובה מפני שפענוח אוטו-רגרסיבי token-אחר-token היה הבקבוק הצוואר הדומיננטי — והסדרתי מטבעו — ב-inference של LLM. פענוח diffusion מקבילי עשוי לחתוך באופן משמעותי את ה-latency במקרי שימוש אינטראקטיביים ובעלי throughput גבוה. המודל משך עניין אמיתי בקרב מפתחים מעבר לבלוג ההשקה, עם thread ב-HN שהגיע ל-297 נקודות ו-75 תגובות ששיבחו את שיפורי המהירות. נותרו שאלות פתוחות סביב איכות הפלט מול מודלים אוטו-רגרסיביים מבוססים בגדלים דומים, והאם נתון פי-4 מחזיק תחת serving מרובה-משתמשים ב-batch ולא רק במקרה המקומי החד-משתמשי שעליו הצביעה Google.