OtherMay 22, 20261 מקורות

ByteDance Seed משחררת את Cola DLM — מודל diffusion לא-אוטורגרסיבי של 2B

ניתוח AI

Cola DLM הוא השחרור הפתוח המעניין ארכיטקטונית ביותר של השבוע. בעוד transformer LMs רגילים מייצרים token-by-token autoregressively, Cola מתכנן פסקה שלמה במרחב latent רציף תחילה, ואז מפענח ל-tokens ב-pass יחיד. ההשלכות מהותיות: באופן עקרוני, זה יכול להציע קוהרנטיות גלובלית טובה יותר (המודל "יודע" את הסוף לפני שהוא מתחיל), latency אחיד יותר (ללא streaming של token אחרי token), ו-parallelism פוטנציאלי שפענוח מסורתי לא יכול להשיג.

גם הגודל של 2B parameters משמעותי — קטן מספיק כדי להיכנס ל-GPUs צרכניים ולהיחקר באופן רחב, אבל מסוגל מספיק כדי להדגים את הכדאיות של המתכון. ByteDance ממצבת את זה כיותר artifact מחקרי מאשר מוצר: התרומה היא המתכון ה-non-autoregressive שמשוחרר באופן פתוח, לא הציון ב-leaderboard.

ההקשר התחרותי מעניין. Diffusion LMs היו thread מחקרי שקט שנים (Mercury, SEDD, מאמצים שונים של Google Research), אבל אף אחד לא שלח באופן פתוח בסקייל הזה ועם רמת פירוט כזו. אם איכות Cola תחזיק מול baselines autoregressive בספירת parameters דומה, ייפתח נתיב ארכיטקטוני אלטרנטיבי רציני — אטרקטיבי במיוחד למקרים שבהם קוהרנטיות גלובלית מנצחת streaming latency (כתיבה long-form, קוד, output מובנה). Cohere קיבלה השבוע שבחים נפרדים מ-Clement Delangue על שחרור ב-Apache 2.0, ו-SmolLM3-3B מ-HuggingFaceTB שוחרר עם שקיפות אימון מלאה — יחד, התמונה היא של מתכונים open-source שמתגוונים הרחק מ-monoculture של transformer-autoregressive בלבד. שווה לעקוב: benchmarks עצמאיים של Cola מול baselines autoregressive של 2B (Qwen 2B, Phi, Llama 3.2), האם ByteDance תרחיב את המתכון, והאם thread של diffusion-LM ימשוך יותר השקעה מחקרית בעקבות שחרור פתוח אמין לבנות עליו.

מקורות

dev.to

https://dev.to/thousand_miles_ai/cola-dlm-text-generation-that-plans-before-it-writes-3mlh