AlibabaJune 25, 20261 מקורות

Qwen-AgentWorld של Alibaba מנצח שבעה benchmark של agents בעזרת חיזוי סביבות

ניתוח AI

צוות Qwen של Alibaba פרסם את Qwen-AgentWorld, זוג מודלים שנבנו סביב 'world modeling' — אימון המודל לחזות איך הסביבה של ה-agent תגיב במקום לפעול ישירות בתוכה. לפי הדיווח, הגישה ניצחה baselines בשבעה benchmarks של agents, כולל שלושה שהוחזקו מחוץ לאימון, על פני תחומי software-engineering, חיפוש ו-Android. המודלים מבוססי-MoE תומכים ב-context של 256K tokens ואומנו על יותר מ-10 מיליון trajectories של אינטראקציה עם סביבה, עם שיפורי ביצועים מדווחים שעולים על reinforcement learning מסורתי בסביבה אמיתית.

הרעיון הטכני הוא ש-world model נלמד מאפשר לאמן ולהעריך agents בזול בסימולציה במקום להריץ rollouts יקרים ואיטיים בסביבה אמיתית — כיוון מחקר חם (ראו גם בדיקת agents מבוססת-סימולציה של Patronus AI). ההכללה ל-benchmarks שלא נראו היא הטענה הכותרתית, שמרמזת שה-world model תופס מבנה בר-העברה ולא משנן משימות.

ההשקה נוחתת ברגע עדין: היא יצאה באותו שבוע שבו Anthropic האשימה את חברת Qwen של Alibaba במסע distillation מסיבי של Claude. ספקנים בהכרח ישאלו כמה מההתקדמות ב-agentic-reasoning של Qwen היא אמיתית לעומת distilled — בדיוק שאלת ה-IP שמונחת כעת מול סנאטורים אמריקאים. המסגור של Alibaba את מחקר ה-world-modeling המקורי ניתן לקריאה כנרטיב-נגד להאשמת ה-distillation. הסתייגויות: ניצחונות ה-benchmark מדווחים-עצמית, טענות ה'מנצח RL' זקוקות לשחזור עצמאי, ו-agents שאומנו על world model יכולים לרשת את הנקודות העיוורות של הסימולטור כשהם עושים deploy למציאות מבולגנת. שווה לעקוב אחרי הערכות צד-שלישי, זמינות המודל/release ואיך קבלת המחקר נצבעת על ידי מחלוקת ה-distillation.

מקורות

meteoraweb.com

https://meteoraweb.com/en/news/alibaba-trains-ai-models-to-predict-environments-instead-of-acting-and-beats-seven-benchmarks