AnthropicMay 24, 20262 מקורות

Claude Mythos שובר רשתות ארגוניות 6/10 מול 3/10 של GPT-5.5 — אחרי שמצא 10,000+ zero-days

ניתוח AI

הדוח של ה-red-team מ-AISI הוא ה-benchmark הציבורי הקונקרטי ביותר עד כה ליכולת cybersecurity התקפית של מודלי frontier. בתרחיש מבוקר של השתלטות על רשת ארגונית, Mythos הצליח ב-60% מהמקרים מול GPT-5.5 ב-30% — לא דלתא אקדמית כשמצב הכישלון הוא domain admin מלא. בשילוב עם החשיפה של Anthropic ש-Mythos מצא מעל 10,000 zero-days ב-Project Glasswing, זו העדות החזקה ביותר עד כה לכך שהיכולת ההתקפית עקפה באופן מובהק את קצב ה-patching.

מכנית, Mythos פועל כ-pentester agentic: תכנון בטווח ארוך, שימוש בכלים על פני recon, exploitation ו-persistence, ויכולת לשרשר CVEs לנתיבי תקיפה חדשים. Claude Security, האח ההגנתי שנמצא כעת ב-public beta על Opus 4.7, תיקן לפי הדיווחים מעל 2,100 פגיעויות ארגוניות — Anthropic מנסה במפורש להריץ התקפה והגנה במקביל כך שהאפקט נטו יהיה חיובי.

הקשר תחרותי: זו הפעם הראשונה שמכון בטיחות AI לאומי מפרסם מספרים head-to-head בין שתי מעבדות frontier על יכולת dual-use, וושינגטון מקשיבה — Politico מסמן ביקורת קונגרסיונלית גוברת. זה גם ממסגר מחדש את היריבות בין Anthropic ל-OpenAI מ"מי הקודר הטוב יותר" ל"של מי ה-agent המסוכן יותר". מה לעקוב: האם המתודולוגיה של AISI ניתנת לשחזור (Anthropic ו-OpenAI ידחפו אחורה על ריאליות התרחיש), האם CISA תרים את 10,000 ה-zero-days ל-coordinated disclosure, והאם הדוח יהפוך לתבנית שמשרד ה-AI של ה-EU יאמץ להערכות pre-deployment משלו. צוותי security צריכים להתייחס לנתון 6/10 כהנחת תכנון, לא כתרחיש הגרוע ביותר.

מקורות

politico.com

https://www.politico.com/news/2026/05/24/anthropic-openai-mythos-what-to-know-00934668

cybersecuritynews.com

https://cybersecuritynews.com/anthropics-claude-mythos-preview-0-days/