NVIDIA חושפת את Nemotron 3 Ultra — מודל פתוח של 550 מיליארד פרמטרים ל-agents

NVIDIA הציגה את Nemotron 3 Ultra, מודל שפה open מסוג mixture-of-experts (MoE) בגודל 550 מיליארד פרמטרים, המכוון ל-agents אוטונומיים ארוכי-טווח המשתרעים על coding, research ו-workflows ארגוניים. NVIDIA מדווחת על מהירויות inference מהירות עד פי 5 ועלויות הרצה נמוכות בכ-30% לעומת מודלים דומים, כשהשקלולים מתוכננים לנחות ב-Hugging Face, ModelScope ו-OpenRouter בסביבות 4 ביוני.
תכנון ה-MoE הוא ידית העלות: על-ידי הפעלת תת-קבוצה בלבד מתוך 550B הפרמטרים לכל token, NVIDIA שואפת לספק יכולת בקנה-מידה frontier בעלות שירות נמוכה מהותית — תוך התמודדות ישירה עם חרדות עלות-ה-inference שצצו סביב ה-Dynamic Workflows עתירי-ה-agents של Anthropic השבוע. שחרור שקלולים פתוחים גם מזרע אימוץ על אותה חומרה ש-NVIDIA מוכרת.
תחרותית, Nemotron 3 Ultra נכנס לשדה open-model צפוף לצד MiniMax M3, Qwen 3.7 של Alibaba, DeepSeek וקו Llama של Meta — כולם רודפים אחרי use-case של agentic-coding. הזווית של NVIDIA היא co-optimization עם הסיליקון שלה בתוספת טענות היעילות. הקריאה הספקנית: נתוני מהירות ועלות המדווחים על-ידי הספק זקוקים לאימות עצמאי, ומודל 550B, גם sparse, עדיין דורש תשתית רצינית להרצה. שווה לעקוב אחר שחרור השקלולים ב-4 ביוני ו-benchmarks ראשונים של צד-שלישי כדי לראות אם טענות פי-5/30% מחזיקות מול workloads אמיתיים.