NVIDIAJune 4, 20261 מקורות

NVIDIA משחררת את Nemotron-3-Ultra 550B מסוג LatentMoE עם context של מיליון

ניתוח AI

NVIDIA שחררה את Nemotron-3-Ultra-550B-A55B-Base-BF16, מודל בסיס פתוח גדול הבנוי על ארכיטקטורת Latent Mixture-of-Experts (LatentMoE) היברידית עם 55B פרמטרים פעילים ו-550B סה"כ. הוא כולל שכבות Multi-Token Prediction (MTP) לשיפור איכות הגנרציה והתפוקה, אומן מראש על 20 טריליון tokens, ותומך בחלונות context עד מיליון tokens.

עיצוב ה-LatentMoE — שמפעיל חלק קטן מסך הפרמטרים לכל token — מכוון לחזית היעילות, ומאפשר למודל לטעון לאיכות של מודל גדול בעלות inference של הפעלה דלילה. שכבות MTP, שחוזות מספר tokens עתידיים לכל צעד, הן טכניקה נפוצה יותר ויותר (בשימוש DeepSeek ואחרים) להגברת מהירות פענוח ואיכות.

ההפצה הגיעה מהר: מנכ"ל Perplexity, Aravind Srinivas, הכריז ש-Nemotron 3 Ultra זמין לכל משתמשי Pro ו-Max, וכינה אותו 'מודל ה-open-source המוביל של אמריקה', ו-NVIDIA הרחיבה את קואליציית Nemotron שלה עם חברים חדשים כולל H Company, Nous Research ו-Prime Intellect לצד השותפים הקיימים Mistral, Cursor, LangChain ו-Perplexity. אסטרטגית, Nemotron הוא נטיעת הדגל של NVIDIA במשקלים פתוחים — בניית אקוסיסטם שרץ הכי טוב על חומרת NVIDIA תוך חיזור אחר הקהילה הפתוחה מול Llama, Qwen ו-Gemma. הסתייגויות: מודל בסיס בן 550B כבד לפריסה, השחרור הפתוח הוא צ'קפוינט בסיס (לא מכוון-הוראות), וטענות 'open-source מוביל' מחכות ל-evals עצמאיים. מה לעקוב אחריו: fine-tunes שנבנים עליו, וביצועי context של מיליון בעולם האמיתי.

מקורות

huggingface.co

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-Base-BF16