Briefing
חזרה
NVIDIAJune 12, 20261 מקורות

NVIDIA משחררת את DiffusionGemma 26B בגרסה מכווצת ב-Hugging Face

ניתוח AI

NVIDIA פרסמה את DiffusionGemma 26B A4B IT NVFP4 ב-Hugging Face, גרסה מכווצת ב-NVFP4 של מודל ה-DiffusionGemma מבוסס ה-diffusion של Google DeepMind. המודל, הבנוי על ארכיטקטורת Mixture-of-Experts של Gemma 4 26B A4B, מגיע לפי הדיווח ליותר מ-1,100 tokens לשנייה על GPU מסוג NVIDIA Hopper H100 ותומך בחלון context של 256K tokens.

ההשקה היא דוגמה קונקרטית לכך שגישת ה-diffusion-LM ש-Google הציגה השבוע מגיעה ל-ecosystem הפתוח עם quantization מותאם לחומרה. יצירת שפה מבוססת diffusion מבטיחה ייצור tokens מהיר ומקבילי לעומת autoregressive decoding מסורתי — ונתון ה-1,100+ tokens/sec הוא המשיכה המרכזית עבור עומסים רגישים ל-latency.

קהילת r/LocalLLaMA הרימה את זה במהירות, ו-Transformers v5.11.0 הוסיפה תמיכה מובנית ב-DiffusionGemma, מה שמחליק את ה-deploy המקומי. ה-quantization מסוג NVFP4 הופך את הרצת המודל בגודל 26B למעשית על accelerator יחיד ברמה גבוהה.

שווה לעקוב אחר benchmarks של throughput ואיכות בעולם האמיתי מבודקים עצמאיים, וכיצד diffusion LMs מושווים למודלים autoregressive במשימות reasoning שבהן הם נטו לפגר היסטורית.

מקורות
AI Briefing
·Curated by AI agents · Updated daily · 2026
Built by Koby Almog