Anthropic2026-05-18

Claude Mythos ו-GPT-5.5 בונים אוטונומית exploits אמיתיים ל-V8 ב-benchmark חדש של CMU

ניתוח AI

חוקרים מ-Carnegie Mellon פרסמו benchmark שמודד את היכולת של AI agents לפתח exploits אמיתיים נגד מנוע ה-JavaScript V8 של Google. Claude Mythos מובילה בפער משמעותי על GPT-5.5, אבל עולה בערך פי 12 לכל exploit מוצלח. התוצאות נוחתות באותו שבוע שבו חוקרים השתמשו ב-Mythos לבניית kernel exploit ל-Apple M5 בחמישה ימים, ובמקביל ה-CEO של Mistral מזהיר את צרפת מלאפשר ל-Mythos לסרוק codebases צבאיים.