agents בגישת 'SLM-first' צוברים תאוצה — מודלים קטנים מנצחים ב-production

בתוך שבוע שנשלט על-ידי כותרות של מודלים חזיתיים — Opus 4.8, GPT-5.5, Gemini 3.5 — נרטיב נגדי צובר תאוצה: שהמערכות ה-agentic הטובות ביותר של 2026 רצות יותר ויותר על small language models. מאמר ב-dev.to שזכה לתפוצה רחבה טוען ש-SLMs כמו Phi-4-mini, Qwen3.5-4B, SmolLM3-3B, Gemma-4-E2B ו-Mistral-7B מנצחים agentic workloads אמיתיים בפרודקשן, כי תתי-המשימות הצרות והחוזרות שמרכיבות את רוב לולאות ה-agent פשוט לא צריכות reasoning בקנה מידה חזיתי.
ההיגיון הכלכלי משכנע ומתחבר ישירות לשאר הנושאים של השבוע. כש-agentic workloads מכפילים קריאות inference, פער העלות בין מודל חזיתי ל-SLM של 4B לכל צעד מצטבר באופן דרמטי — בדיוק חרדת ה-"tokenmaxxing" שמנהלים משמיעים, כש-CEO של Micro1 ציין "תנודה בריאה" הרחק משימוש-יתר ב-tokens. ניתוב צעדים שגרתיים ל-SLMs זולים ובעלי latency נמוך, והסלמה למודל חזיתי רק עבור reasoning קשה, נעשה ארכיטקטורה ממושמעת-עלות.
המגמה הזו גם מצטלבת עם דחיפת ה-edge של NVIDIA (JetPack 7.2, RTX Spark עם 128GB זיכרון מקומי), שהופכת את הרצת המודלים הקטנים והמסוגלים באופן מקומי — בלי round-trips לענן — לפרקטית יותר ויותר, ועם הפוקוס האינטנסיבי של קהילת r/LocalLLaMA בכלכלת מודלים מקומיים.
הסייג הוא ש-SLM-first דורש אורקסטרציה מתוחכמת: לוגיקה של routing, fallback והערכה שצוותים רבים משקיעים בה פחות מדי. מאמר נלווה על observability של agents טוען שצוותים בדרך כלל מנטרים רק את שכבת ה-LLM request/response ו"מתמוטטים עד שבוע שלוש", בלי נראות לתוך tool calls. המסקנה המעשית לבונים: הבחירה בין חזיתי לקטן כבר אינה בינארית — הדפוס המנצח הוא הטרוגני, עם מודלים קטנים שעושים את עיקר העבודה ומודלים חזיתיים שמורים למקרים הקשים.