Qwen3.7-Plus: ה-agent המולטימודלי של Alibaba שמפעיל את המחשב בשבילך

Alibaba מיצבה את Qwen3.7-Plus כ-agent מסוג 'computer-use' ולא כמודל צ'אט בלבד. המערכת ממזגת תפיסה ויזואלית, שליטה ב-GUI ויצירת קוד אוטונומית בתוך לולאת agent אחת, וקולטת טקסט, תמונות ווידאו כקלט — כך שהיא יכולה לקרוא מסכים, לנווט באפליקציות דסקטופ ווב, לכתוב קוד מתוך תבניות ויזואליות ולהפעיל כלים ללא אדם בלולאה. היא מוצעת דרך API בפלטפורמת Bailian של Alibaba Cloud.
הטיעון הטכני מתמקד ב-GUI grounding — מיפוי ההבנה של המודל לגבי ממשק על המסך לפעולות מדויקות כמו קליקים והזנת שדות — ובו, לטענת Alibaba, Qwen3.7-Plus מוביל ב-benchmarks שלה עצמה. זה מציב אותו בתחרות ישירה מול agents מסוג computer-use של Anthropic (ה-computer use של Claude), agents בסגנון operator של OpenAI, וכעת גם מול מתחרות סיניות ומערביות אחרות.
אסטרטגית, מודל agent יכולתי ונגיש דרך API מחזק את ההצעה הארגונית של Alibaba Cloud ומרחיב את המוניטין של משפחת Qwen כאחת משורות המודלים החזקות — open ומסחרית — שיוצאות מסין. ההסתייגות עם agents מסוג computer-use באופן כללי היא אמינות: ניווט GUI אוטונומי עדיין נוטה לשגיאות בממשקים לא מוכרים, והובלה ב-benchmark על משימות grounding מתורגלות לא תמיד מיתרגמת לאוטומציה חסונה בעולם האמיתי. התמחור ומגבלות הקצב דרך Bailian יעצבו את האימוץ.