NVIDIAJune 23, 20261 מקורות

NVIDIA חושפת DFlash: inference מהיר פי 15 על Blackwell — לפחות לטענתה

ניתוח AI

NVIDIA תוקפת את חומת זמן-ההשהיה ב-inference שהולכת ומגדירה את הכלכלה של AI agentic. DFlash היא טכניקת speculative decoding ש-NVIDIA טוענת שעל גבי Blackwell GPUs מספקת עד פי 15 שיפור בביצועי inference. speculative decoding עובד באמצעות שימוש במודל draft קטן ומהיר יותר שמציע מספר tokens שאותם מודל יעד גדול יותר מאמת במקביל, וכך חוסך את מספר ה-forward passes הסדרתיים והיקרים — נראה ש-DFlash דוחף את הגישה הזו צעד קדימה עם אופטימיזציות ייעודיות ל-Blackwell.

המוטיבציה מבנית: כש-AI עובר משיחה חד-תורית אל זרימות עבודה רב-agentיות מתואמות — שבהן agents קוראים זה לזה, משתמשים בכלים, ורצים בלולאות — זמן ההשהיה של יצירת tokens אוטו-רגרסיבית מצטבר על פני כל צעד. decoding מהיר יותר משפר ישירות את תגובתיות לולאת ה-agent ומוריד את העלות למשימה, מה שחשוב מאוד כשארגונים פורסים agents בקנה מידה.

NVIDIA שילבה את החדשות עם תוכן מפתחים נלווה על מקסום יעילות אנרגטית של AI-factory באמצעות אופטימיזציות full-stack, וציינה שצריכת חשמל יכולה להוות 40% מהוצאות התפעול — מה שמחזק שעלות ה-inference היא כעת בעיה של זמן השהיה וגם של אנרגיה. זה גם התחבר למהלכי Agent Toolkit ו-BioNeMo של NVIDIA, ומיצב את Blackwell בתוספת תוכנה כ-stack המלא ל-agents בייצור.

מבחינה תחרותית, זו NVIDIA שמגנה על חפיר ה-inference שלה מול AMD, Groq (שזה עתה אישרה גיוס של 650 מיליון דולר), וסיליקון מותאם של ספקי ענן כמו AWS Trainium/Inferentia ו-Google TPUs — שכולם מתחרים על יחס מחיר-ביצועים ב-inference. רווחי ה-speculative decoding עוזרים ל-NVIDIA לטעון שהעלות-האפקטיבית-ל-token של Blackwell נמוכה ממה שמחירי ה-GPU הרשמיים מרמזים.

מה לעקוב: אימות עצמאי של טענת פי-15, שתלויה מאוד בעומס העבודה ובשיעור הקבלה של ה-speculative decoding. רווחים בעולם האמיתי בדרך כלל נופלים מהמספרים הטובים ביותר, כך שאנשי מקצוע יעשו benchmark ל-DFlash על עומסי agent בייצור לפני שיקחו את המספר כפשוטו.

מקורות

developer.nvidia.com

https://developer.nvidia.com/blog/boost-inference-performance-up-to-15x-on-nvidia-blackwell-using-dflash-speculative-decoding/