ה-Qwen3.7-Max של Alibaba כובש את צמרת Code Arena — ומכופף את OpenAI ו-Google
המודל Qwen3.7-Max של Alibaba הגיע למקום הרביעי בטבלת ה-WebDev של Code Arena — שמודדת את יכולת המודל לבנות אפליקציות web מתוך prompts של משתמשים — ועקף מודלים פרוסים של OpenAI ו-Google, כשהוא היחיד מבית פיתוח שאינו אמריקאי בחמישייה הראשונה. צוות Qwen התגאה בנפרד במקום השלישי ב-ITbench-AA, benchmark חדש שבוחן משימות IT ארגוניות בסגנון agentic.
המודל תוכנן במפורש עבור workflows מבוססי agents: כתיבת קוד, אוטומציה משרדית וביצוע משימות ממושכות. הטענה הבולטת ביותר של Alibaba היא הפעלה אוטונומית של עד 35 שעות ללא ירידה בביצועים — פנייה ישירה לאמינות ארוכת-טווח שמגדירה את נושא ה-agentic-coding של השבוע. 'Agentic era, go with Qwen', כתב הצוות.
המשמעות הרחבה היא גיאוגרפיה תחרותית: מעבדה סינית שמדורגת בראש טבלת קוד מערבית מחזקת את התחושה שהפער ב-frontier-coding הצטמצם, בהמשך למשפחת V4 של DeepSeek ולהורדות המחירים האגרסיביות. הקריאה הסקפטית, שהשמיע Ethan Mollick השבוע, היא שדירוג ב-benchmark עלול להגזים ביכולת האמיתית — לטענתו מודלים open ולא-אמריקאים נשארים 'הרבה יותר שבריריים, במיוחד out-of-distribution' ממה שה-benchmarks מציגים. על הקונים לשקול את הטענה על 35 שעות אוטונומיה מול אימות עצמאי לפני שיסמכו עליה ב-workflows בפרודקשן.