Other2026-04-12

משבר אמינות AI benchmark מתעורר כ-SWE-bench נכשל באימות

ניתוח AI

SWE-bench Verified למעשה מת כ-benchmark לאחר ש-OpenAI הפסיקה לדווח עליו בפברואר 2026, עם הקהילה ה-AI מטילה ספק באיזה הערכות קידוד אמינות בכלל קיימות יותר. מחקר AWS חושף ש-ReAct-style agents מבזבזים 90.8% מתקציבי הניסיון חוזר על קריאות כלים הזויות ברחבי 200 benchmark משימות, כאשר הבעיה נובעת מפגמים ארכיטקטוניים ולא משגיאות מודל. ניתוח מקיף מראה ש-benchmark מובילים ניתנים לתמרון, מה שמוביל לוויכוחים על המדד האמיתי לאמינות agent והצורך בסטנדרטים חדשים להערכה.