DeepSeek פותחת את DSpark ל-open-source — וטוענת לזירוז של עד 85%

DeepSeek השיקה את DSpark, framework בקוד פתוח לאופטימיזציה של inference שזמין תחת רישיון MIT ב-GitHub, וטוענת למהירות generation מהירה יותר בעד 85% — בלי שדרוג חומרה ובלי אימון מחדש של המודל. ה-framework מבוסס על speculative decoding מתקדם, וכבר רץ בייצור במודלים V4-Flash ו-V4-Pro של DeepSeek, שם הוא מציג שיפור מהירות של 60–85%.
מבחינה טכנית, speculative decoding משתמש במודל 'טיוטה' קטן יותר שמציע tokens שהמודל הגדול מאמת במקביל — וכך חותך latency. DSpark מגיע בחבילה עם DeepSpec, codebase שלם לאימון מודלי טיוטה מותאמים אישית, ובאופן בולט הוא תומך גם במודלים של ספקים אחרים — כולל Qwen של Alibaba ו-Gemma של Google — מה שהופך אותו לשכבת יעילות שימושית באופן רחב ולא לכלי בלעדי של DeepSeek.
אסטרטגית, שחרור מאיץ inference בקוד פתוח שעובד חוצה-ספקים מרחיב את נרטיב מנהיגות-העלות של DeepSeek אל מעבר למודלים שלה ואל תוך הסביבה הרחבה — בדיוק סוג ההנדסה ממוקדת-היעילות שחברות ה-AI הסיניות מנצלות כדי לסגור את הפער מול המודלים המובילים בתקציב נמוך. לצוותים מודעי-עלות שבורחים מחשבונות מאמירים של מודלים אמריקאיים, framework חינמי שמגביר throughput על חומרה שכבר יש להם — זה רלוונטי ישירות.
השחרור משתלב בתמה הדומיננטית של השבוע: יעילות-עלות. הספקנים ירצו לראות את נתון ה-85% מאומת על workloads מגוונים, שכן הרווחים מ-speculative decoding משתנים מאוד לפי המשימה ואיכות מודל הטיוטה. מה לעקוב: אימוץ של DSpark על-ידי צד שלישי על מודלים שאינם DeepSeek, והאם השיפורים שנטענו מחזיקים גם מחוץ ל-benchmarks של DeepSeek עצמה.