DeepMind מציעה מסגרת AI Control: להתייחס ל-agents מתקדמים כאיום פנימי

חברת Google DeepMind פרסמה מסמך 'AI Control framework' שמעלה טענה פרובוקטיבית: אימון alignment לבדו אינו יכול להבטיח ש-agents מתקדמים של AI יישארו תחת שליטה אנושית, ולכן התעשייה צריכה להתייחס ל-agents מסוגלים של Gemini כ'איומים פנימיים' פוטנציאליים ולהנדס הכלה מבנית לפני פריסת מודלים מסוגלים יותר. זהו שינוי בולט מרטוריקה של alignment-first לעמדת הגנה לעומק שמניחה כישלון מראש.
מבחינה מכניקית, ה-framework מציע ארכיטקטורת הגנה רב-שכבתית שמגבילה את רדיוס הנזק אם agent סוטה מההתנהגות המיועדת — באנלוגיה לאופן שבו צוותי cybersecurity מכילים גורם פנימי זדוני באמצעות גישת הרשאות מינימליות, ניטור ובידוד, במקום לסמוך על התנהגות טובה. ההנחה היא שככל ש-agents צוברים אוטונומיה וגישה לכלים, הבטחות התנהגותיות הופכות לבלתי מספקות והבטחות מבניות הופכות להכרחיות.
התזמון בולט: זה נוחת באותו שבוע שבו Anthropic נאלצה למשוך את Fable 5 ואת Mythos 5 בגלל פגיעות jailbreak שעקפה את אמצעי ההגנה של ה-cybersecurity — הדגמה מהעולם האמיתי בדיוק של מצב הכישלון שה-framework של DeepMind צופה. זה גם מגיע על רקע שיח ב-Reddit ש-DeepMind 'מתקשה להתחרות', מה שמרמז שהחברה מבדלת את עצמה בהובלת מחשבה בתחום הבטיחות.
מה לעקוב הלאה: האם ה-framework מתורגם לבקרות פריסה קונקרטיות עבור agents של Gemini בסביבת production, איך הוא משתלב עם משטרי בקרת יצוא ורגולציה מתהווים, והאם חברות ה-AI המתחרות מאמצות שפה דומה של containment-first.