מחקר של Apple: צוותי LLM מרובי-agents נכשלים מול מומחה בודד — בפער של עד 41%

חוקרי ה-ML של Apple שפכו מים קרים על ההייפ סביב multi-agent. המחקר שלהם על מערכות LLM אוטונומיות מרובות-agents — שבהן תיאום צומח דרך אינטראקציה ולא דרך תפקידים קבועים — מצא שתיאום כפוי יכול להגביל ביצועים באופן פעיל, כשצוותים מתפקדים פחות טוב מהמומחה היחיד הטוב ביותר בעד 41.1% על benchmarks של ML. האשם הוא חתירה לקונצנזוס: ה-agents מתכנסים לעבר הסכמה ולא לעבר נכונות, ומדללים את התורם החזק ביותר.
הממצא הוא נגד-משקל חד לריצה של התעשייה לעבר נחילי agents וארכיטקטורות 'orchestrator', והוא משתלב עם העמדה השמרנית יחסית של Apple במוצרים (Siri מבוססת-AI, מוגבלת-מכשיר ובאופציה, שתצא הסתיו). זה מרמז שעיצובי multi-agent נאיביים עלולים להוסיף עלות ו-latency בלי רווחי דיוק — הסתייגות חשובה כשספקים כמו NVIDIA (ASPIRE), xAI ו-AWS דוחפים בחוזקה מערכות אגנטיות.
Apple שילבה את הביקורת עם שני מוצרי מחקר. VideoFlexTok הוא tokenizer וידאו גמיש-אורך מגס-לעדין, שחושב מחדש את רשת ה-3D הספטיוטמפורלית הסטנדרטית, וכביכול מאפשר יצירה של 10 שניות עם פי 8 פחות tokens — רלוונטי ישירות להוזלת יצירת וידאו גנרטיבי. MemoryLLM מנתק את מודולי ה-feed-forward מ-self-attention כדי לאפשר זיכרון בר-פרשנות ו-plug-and-play, ומתייחס לשכבות FFN כזיכרון אחזור. ההקשר התחרותי: בזמן ש-Google ו-OpenAI משיקות מוצרים אגנטיים, Apple מפרסמת מחקר שמערער על היסודות שלהם — עקבי עם עמדת 'מדוד פעמיים' שלה. עמדות ספקניות: המספר של 41% הוא ספציפי ל-benchmark ולא מוכיח שמערכות multi-agent חסרות תועלת, אלא רק ששיטות התיאום הנוכחיות פגומות. מה לעקוב: האם המאמרים האלה יתורגמו למוצרים של Apple וכיצד קהילת ה-multi-agent תגיב לביקורת על חתירת הקונצנזוס.