הצעת sleep-phase מקצצת את עלות ה-inference של Transformers

מאמר חדש ב-arXiv, שצף דרך פרשנות מפתחים ב-29 במאי, מציע להוסיף 'שלב שינה' למודלי שפה מסוג transformer: בפרקי זמן המודל עוצר את ה-inference, מאחד את ה-context האחרון לשכבות זיכרון בגודל קבוע, ואז מנקה את ה-KV cache של ה-attention לפני שהוא ממשיך. הטכניקה עוקפת את העלות הריבועית של attention שדומיננטית בעומסי long-context, ולפי הדיווחים משפרת ביצועי משימות ארוכות-טווח ב-benchmark של GSM-Infinite.
המסגור הביולוגי — שינה כאיחוד זיכרון — טעון רטורית, אבל המהות ההנדסית אמיתית: ההצעה מחליפה עלות חישוב מחזורית קטנה (מעבר האיחוד) בחיסכון חוזר גדול (KV cache שתמיד רענן). עבור עומסי agentic שרצים שעות וצוברים מאות אלפי tokens של context, ה-tradeoff הזה אטרקטיבי מבחינה מבנית.
הקשר תחרותי: זה נוחת ברבעון שבו כל מעבדת frontier נלחמת בכלכלת long-context — Opus 4.8 של Anthropic נשלח עם sub-agents מקבילים בין השאר כדי לתחום context לכל agent, וההודעה של Hugging Face על סנכרון משקלים אסינכרוני באותו שבוע היא משחק תשתית קשור. מפתחים סקפטיים מציינים שתוצאות GSM-Infinite לרוב לא מתכללות; שחזורים עצמאיים הם הסעיף למעקב.