DeepSeek משחררת את DSpark: inference של V4 מהיר יותר בעד 85%

DeepSeek השיקה את DSpark, framework ל-speculative decoding עבור משפחת המודלים V4 שלה, שמאיץ את קצב ה-generation לכל משתמש ב-60%-85% בהשוואה לשיטות MTP קודמות — וכל זה בלי צורך ב-retraining. טענת היעילות הבולטת: GPU בודד יכול לשרת כ-185 שאילתות במקום 100, קפיצת מדרגה ב-throughput שתוקפת ישירות את עלות ה-inference — צוואר הבקבוק והמרכז התקציבי הגדול ביותר של חברות ה-AI שמשרתות בקנה מידה גדול.
ה-framework עובד על ידי חיזוי של מספר tokens קדימה ואימות שלהם במקביל, מה שמצמצם את מספר ה-forward passes המלאים והיקרים. חשוב מכך: DeepSeek שחררה את DSpark כ-open-source תחת רישיון MIT, מהלך שהקהילה שיבחה כ"הפיכת אופטימיזציית latency למצרך זמין" ומצמצם את התלות בצי GPU שרק הולך וגדל.
השחרור נוחת על רקע גל רחב יותר של חרדת עלויות סביב AI. Reuters דיווחה על ארגונים שמהגרים למודלים סיניים וקוד פתוח זולים יותר ככל שתמחור מבוסס-שימוש מכביד, כשה-tokens של DeepSeek עולים 18 סנט למיליון לעומת כ-4 דולר במודלים האמריקאיים המובילים. DSpark מחזק את מעמדה של DeepSeek כמובילה ביעילות עלויות, ומשלים את השקת V4 המתוכננת לאמצע יולי. החברה נתמכת ב-7.4 מיליארד דולר שגייסה ביוני 2026 בשווי של מעל 50 מיליארד דולר, ומתכננת לפחות להכפיל את כוח האדם שלה.
ההתלהבות בקרב המפתחים הייתה גבוהה — סרטוני הסבר ב-YouTube חצו מיליון צפיות ומשתמשי X חגגו את הרישיון הפתוח. ההסתייגות: ההאצה בפועל ב-speculative decoding תלויה מאוד ב-workload ובשיעורי הקבלה, כך שהנתון של 85% מייצג את התרחיש האופטימלי ולא רצפה מובטחת. ובכל זאת, שיפור יעילות פתוח ונטול-retraining הוא בדיוק מה שצוותים תחת לחץ עלויות ביקשו.