OpenAI מציגה Deployment Simulation להערכת סיכוני agents עוד לפני ההשקה

OpenAI חשפה את Deployment Simulation, מתודולוגיית safety לפני שחרור שמריצה מחדש שיחות עבר שנשמרו דרך מודל מועמד חדש, ומדרגת את התוצרים שמתקבלים כדי להעריך כמה פעמים המודל יפיק התנהגות לא רצויה ברגע שייפרס. במקום להסתמך רק על benchmark סטטיים או על תחקירי red-team, הגישה מקרבת תעבורת production אמיתית כדי לחזות את שיעורי הכשל בזמן הפריסה.
חשוב במיוחד: OpenAI הרחיבה את השיטה ל-agentic coding באמצעות שילוב של קריאות tool מדומות — מה שמאפשר להערכה לתפוס איך המודל מתנהג לא רק בצ'אט אלא גם כשהוא מפעיל כלים ונוקט פעולות, שם משטח הסיכון גדול יותר. החברה דיווחה על שגיאה מכפלתית חציונית של פי 1.5 בין השיעורים המדומים לשיעורים בפועל, כלומר ההערכות נמצאות בטווח הנכון אך אינן מדויקות.
השחרור מגיע בתזמון רלוונטי לאור הדרמה הרגולטורית של השבוע: ה-Fable 5 של Anthropic הושבת בעקבות jailbreak שקשור לכתיבת קוד, שלכאורה היה אמור לצוף בבדיקות לפני הפריסה. המסגור של OpenAI — שאפשר להעריך, ולא רק לקוות, מה מודל יעשה בשטח לפני שמשגרים אותו — הוא מהלך ישיר אל שאלת 'איך אנחנו יודעים שזה בטוח לפני השחרור' שעומדת כעת בראש מעייניהם של הרגולטורים.
ספקנים יציינו ששגיאה של פי 1.5 היא משמעותית עבור התנהגויות נדירות-אך-קטסטרופליות, ושהרצה מחדש של שיחות עבר עלולה לפספס דפוסים יריבים חדשים. שווה לעקוב אם OpenAI תפרסם את המתודולוגיה בפירוט והאם חברות AI אחרות יאמצו gating מבוסס-סימולציה דומה לפני פריסה.