OpenAIJune 19, 20261 מקורות

OpenAI חושפת שיטה לחזות התנהגות חריגה של AI לפני deploy

ניתוח AI

חוקרים ב-OpenAI הציגו שיטה לחיזוי סיכוני AI עוד לפני ה-deploy, שמנבאת באיזו תדירות התנהגויות שגויות ספציפיות יתרחשו בייצור על בסיס הקצב שבו כל התנהגות כזו מופיעה לרוחב תגובות המודל במהלך ה-evaluation. במקום לשאוף למניעה מושלמת, הגישה מתייחסת לבטיחות כאל בעיית הערכה הסתברותית — כימות שיעורי הכשל הצפויים בעולם האמיתי עוד לפני ההשקה.

מבחינה מכניסטית, OpenAI מודדת באיזו תדירות התנהגות שגויה נתונה צצה על פני מערך תגובות מדורג, מקרינה זאת לשיעור deploy צפוי, ואז מאמתת את התחזית על ידי הרצת אותו pipeline של דירוג לאחר ההשקה והשוואת התוצאות בפועל לתחזיות. באופן קריטי, הטכניקה דורשת גישה לשיחות אמיתיות ועדכניות של משתמשי ChatGPT כדי להתכייל מול התפלגויות קלט ריאליסטיות — כלומר המתודולוגיה תלויה בגישה המיוחדת של OpenAI לתעבורת ייצור חיה.

המחקר מגיע ברגע רגיש לאמינות בטיחות ה-AI. באותו שבוע, חוקרי Mindgard הראו ש-ChatGPT ניתן לשכנוע לייצר דימויים גרפיים גם אחרי תיקון מוצהר, ו-Fable 5 של Anthropic נותר מושעה בגלל jailbreak. שיטה שמנבאת בכנות שהתנהגויות שגויות יקרו בשיעור מדיד כלשהו היא שינוי רטורי בולט מ'תיקנו את זה' ל'הנה כמה פעמים זה יקרה' — כנה יותר אולי, אבל גם הודאה ש-guardrails הם סטטיסטיים ולא מוחלטים.

התלות בשיחות משתמשים אמיתיות היא הסייג המרכזי: היא מעניקה ל-OpenAI יתרון שחברות AI קטנות וספקי מודלים פתוחים לא יכולים לשחזר בקלות, ומעלה שאלות פרטיות סביב שימוש בשיחות ייצור לכיול בטיחות. עבור התחום, הערך הוא מסגרת קפדנית ומדידה יותר לסיכון טרום-deploy — אם היא תכליל. שווה לעקוב אם OpenAI תפרסם את המתודולוגיה בפירוט מספיק לשחזור עצמאי, והאם השיעורים החזויים יתאמו לנתוני אירועים בעולם האמיתי לאורך זמן.

מקורות

bankinfosecurity.com

https://www.bankinfosecurity.com/new-openai-method-forecasts-ai-risks-before-deployment-a-32021