Claude כבר כותב 80% מהקוד החדש של Anthropic — וזה מדליק את הרשת
Anthropic פרסמה מדד פנימי מרשים: יותר מ-80% מהקוד שמוזג ל-codebase ה-production שלה במאי 2026 נכתב על ידי Claude — מה שהחברה ממסגרת כראיה קונקרטית לאותה עקומת recursive self-improvement שעליה היא מזהירה במקביל. היא מדווחת על גידול פי 8 בכמות הקוד שמשולחת לכל מהנדס ברבעון ביחס ל-baseline של 2021-2025, ואומרת ששיעור ההצלחה של Claude בבעיות engineering קשות ומוגדרות-בחסר זינק בכ-50 נקודות בחצי שנה — ל-76% במאי.
טענות היכולת נשענות על אוטונומיה ב-long-horizon. Anthropic אומרת ש-Claude Opus 4.6 מסוגל לקיים עבודה קוהרנטית על פני משימות בנות 12 שעות, בעוד המודל המוגבל Mythos Preview חוצה את רף 16 השעות של פתרון בעיות רציף — בעיות open-ended שחסרות מפרט ברור, מהסוג שהיסטורית דרש אדם שיגדיר אותן מחדש באמצע התהליך. המסגור הוא במפורש על נתיב ל'recursive self-improvement', שבו מודלים עוזרים לבנות יורשים יכולתיים יותר.
תחרותית, זו מהלומה שיווקית לא פחות משהיא חשיפה: היא לוחצת על OpenAI (Codex), Google (Gemini coding) ו-Microsoft (MAI-Code, GitHub Copilot) להשתוות ל-benchmarks של אוטונומיה, והמסגור של VentureBeat — 'איך הארגון שלך יכול לעמוד בקצב' — מסמן ש-Anthropic מוכרת את סיפור הפרודוקטיביות לקונים.
הקריאה הספקנית רועשת. ה-thread ב-r/artificial בשם 'Claude is completely unusable now' (237 upvotes, 251 תגובות) ו-thread ב-HN ששואל אם Claude הגדיל את כמות הבאגים ב-rsync (327 נקודות) מראים מפתחים פעילים שחולקים על נרטיב האמינות, גם כש-Anthropic מתהדרת בנתח-הקוד. Simon Willison הדגיש ש-Uber מגבילה כיום coding agents ל-1,500 דולר לחודש לעובד — רמז גם לערך אמיתי וגם לעלות מתפרצת. שווה לעקוב האם Anthropic תפרסם benchmark שניתן לשחזר מאחורי נתון ה-76%, ולא רק eval פנימי.