NVIDIA מעלה את DeepSeek-V4-Pro-NVFP4 הקוונטיזי ל-Hugging Face
NVIDIA שחררה ב-Hugging Face את DeepSeek-V4-Pro-NVFP4, וריאנט מכווץ (quantized) של מודל ה-Mixture-of-Experts בשם V4-Pro של DeepSeek, שמותאם באמצעות ה-Model Optimizer של NVIDIA. המודל נושא 1.6 טריליון פרמטרים בסך הכל עם 49 מיליארד מופעלים בכל forward pass, וה-quantization מסוג NVFP4 נועד לכווץ את טביעת הזיכרון וה-compute עבור inference יעיל על חומרת NVIDIA, תוך שמירה על היכולת.
המודל מוצב עבור reasoning מתקדם, אפליקציות agentic AI, שימוש בכלים ופתרון בעיות מורכבות בתחומי מתמטיקה, software engineering ועוזרי AI ארגוניים. NVFP4 — פורמט נקודה צפה של 4-bit מבית NVIDIA — מרכזי לסיפור יעילות ה-inference של החברה, וקשור ישירות לנקודת המפנה בביקוש ה-inference ש-Huang סימן השבוע.
אסטרטגית, העובדה ש-NVIDIA מבצעת אופטימיזציה ומפיצה מחדש מודל סיני פתוח מוביל היא ראויה לציון: זה הופך את ה-MoE החזק של DeepSeek לבר-deploy יותר על ה-stack של NVIDIA, ומחזק את ה-moat של ה-GPU ללא קשר לשאלה איזו מעבדה אימנה את המשקלים. זה גם נוחת לצד הרחבת משפחת V4 של DeepSeek עצמה וחיתוך מחיר של 75%, איתות לתחרות עלויות עזה ב-frontier של open-weights. האזהרה למאמצים היא הטרייד-אוף הרגיל של quantization — NVFP4 עלול להכניס הידרדרות דיוק במקרי קצה, ולכן צוותים ירצו לאמת מול V4-Pro בדיוק מלא לפני שימוש בייצור.