חודש עם Claude Opus 4.7: "שדרוג שקט שמצדיק את עצמו בעבודה"

סקירה ב-Medium מאת המבקר העצמאי Kosuke Okura שפורסמה ב-20 במאי ממסגרת את Claude Opus 4.7 — שהושק ב-16 באפריל — כשחרור מודל נדיר שהערך שלו צץ דרך שימוש בפועל ולא דרך benchmarks ביום ההשקה. הסקירה מתמקדת בשלושה שיפורים קונקרטיים: agentic reliability לאורך workflows רב-שלביים עם tool use, long-context reasoning שמחזיק מעמר מעבר ל-100K tokens של מסמכים עסקיים, ועקביות tool-use שבה Opus 4.7 קורא באופן אמין ל-MCP tool הנכון עם ארגומנטים תקפים במקום להזות קריאות.
המסגור של 'שדרוג שקט' משמעותי דווקא על רקע הרעש של השבוע. Google I/O השיקה את Gemini 3.5 Flash והציגה preview של Omni; OpenAI טענה שהפריכה השערה מתמטית; Anthropic עצמה גייסה את Karpathy ורכשה את Stainless ביותר מ-300 מיליון דולר. מול כל זה, Opus 4.7 לא מייצר כותרות — אבל נראה שהוא מייצר retention. הסקירה מצטטת תרחישי עבודה אמיתיים (סקירת מסמכים משפטיים ארוכים, משימות coding רב-שלביות, חילוץ מידע מובנה) שבהם הפלטים של 4.7 הם 'נכונים עד כדי שעמום' באופן ש-4.6 לא היה.
העובדה החדשה כאן, על רקע briefings קודמים שרק הודיעו על שחרור 4.7, היא הרטרוספקטיבה של חודש לאחר ההשקה: זוהי ההערכה העצמאית הראשונה ב-scale, ולא benchmarks של Anthropic עצמה. זה מאשש את האסטרטגיה של Anthropic לשחרר שיפורי מודל אינקרמנטליים שמצטברים בהקשרים agentic במקום לרדוף אחרי ניצחונות ב-leaderboard — בדיוק האסטרטגיה ש-Karpathy שמצטרף לצוות ה-pre-training אמור להעמיק. תחרותית, זה מתחבר להבחנה של Ethan Mollick (בסיגנלים החברתיים של היום) שהפער בין ChatGPT/Codex ל-Claude Code/Cowork מצטמצם, בזמן ש-Google מתפצלת לכיוונים שונים. אם קטגוריית עוזרי ה-AI מתכנסת סביב יכולות בסגנון Opus-4.7, ההבדלה עוברת ל-ecosystem, pricing ואמון — בדיוק שם ש-Anthropic חזקה ב-enterprise positioning.