Other2026-04-09

משבר אמינות benchmark: זיהום SWE-bench ו-"SusVibes" חושף סכנות בצינורות agentic

ניתוח AI

מחקר חדש ב-arXiv טוען לזיהום SWE-bench דרך memorization ספציפי, מעודד קהילה לקרוא לפרישתו כמחשוב קידוד משמעותי. בנפרד, מחקר "SusVibes" חדש חשף פגיעויות אבטחה חמורות בצינורות agentic כמו SWE-agent, דלקה דיון חום בנוגע לבטיחות צינורות מפתח אוטונומיים בקנה מידה enterprise. שני הסיפורים ביחד מעלים שאלה רחבה אם leaderboards נוכחיים למעשה משקפים יכולת deployment בעולם האמת. סקרים ממשיכים להראות Claude שולט במשימות קידוד בעולם אמת, בעוד Grok 4 מקבל תגובות מעורבות למרות ציוני reasoning חזקים.