NVIDIAJune 12, 20261 מקורות

NVIDIA משחררת את DiffusionGemma 26B ב-Hugging Face עם 1,100 tokens לשנייה על H100

ניתוח AI

DiffusionGemma 26B מיישם גישת יצירה מבוססת diffusion על טקסט, ארוז כשחרור עם NVFP4-quantization המותאם לחומרת NVIDIA Hopper. המודל בנוי על ארכיטקטורת ה-Mixture-of-Experts של Gemma 4 26B A4B מבית Google DeepMind (3B פרמטרים פעילים במשפחת עיצוב ה-MoE), וטוען לתפוקה של מעל 1,100 tokens לשנייה על GPUs מסוג H100 לצד חלון context של 256K tokens.

שיתוף הפעולה ראוי לציון: NVIDIA אורזת ומבצעת quantization למודל של Google DeepMind עבור inference במהירות גבוהה על הסיליקון שלה עצמה — מה שמדגים את האופי החוצה-ספקים שהולך וגובר בהפצת מודלים פתוחים ב-Hugging Face. NVFP4-quantization הוא המנגנון שמאפשר את התפוקה הגבוהה, ומקריב מעט דיוק תמורת רווחי מהירות וזיכרון דרמטיים.

diffusion-לטקסט נותר כיוון ניסיוני יחסית לעומת LLMs אוטו-רגרסיביים סטנדרטיים, וקהילת LocalLLaMA הפגינה עניין בשחרורים כאלה כחלופות שניתן להריץ מקומית וללא צנזורה — סנטימנט שהתחזק השבוע בעקבות החסימה של Fable 5 על ידי Anthropic. ספקנים ירצו לראות benchmarks של איכות, לא רק מספרי מהירות. מה לבדוק הלאה: הערכות איכות עצמאיות של יצירת טקסט ב-diffusion מול עמיתים אוטו-רגרסיביים, ואימוץ בכלי inference מקומיים.

מקורות

huggingface.co

https://huggingface.co/nvidia/diffusiongemma-26B-A4B-it-NVFP4