OpenAI מעדכנת את מנגנוני הבטיחות של ChatGPT לשיחות בסיכון גבוה, מדווחת על שיפור של 39-52%

עדכון הבטיחות מטפל בקטגוריה ש-OpenAI ספגה עליה ביקורת פתוחה: שיחות ארוכות שבהן סימני אזהרה מוקדמים נשכחים עד שמגיע turn בסיכון גבוה. מנגנון "safety summaries" החדש מחלץ ומקבע context רלוונטי (מצוקה שהובעה, ideation מסלימה, נשק שהוזכר) כך ש-safety policies מופעלות על האות המצטבר ולא על תוכן של turn יחיד.
מכנית, גם policies של המודל וגם training עודכנו, כשהשיפורים של 52% ו-39% נמדדו ב-benchmark על GPT-5.5 Instant. OpenAI לא פרסמה את מתודולוגיית ה-eval העומדת בבסיס ההכרזה, אבל המסגור — אחוזי שיפור גבוהים על בסיס אבסולוטי קטן — עקבי עם דיווחי בטיחות קודמים. החברה גם פרסמה בנפרד עבודת content provenance חדשה (C2PA + SynthID watermarks לתמונות שמיוצרות ב-ChatGPT) שמחברת דחיפת trust-and-safety רחבה יותר.
הקשר תחרותי: זה נוחת באותו שבוע ש-OpenAI הכריזה על יוזמת Daybreak cybersecurity עם שלוש שכבות (GPT-5.5 סטנדרטי, GPT-5.5 ב-vetting עם Trusted Access, GPT-5.5-Cyber ל-red-teaming) ו-Anthropic הרפתה את ה-NDAs של Mythos. שתי החברות מתכנסות למודל tiered של safety-and-access: שכבת צרכן ציבורית, שכבת enterprise ב-vetting ושכבת offensive-security נשלטת.
עמדות סקפטיות: שיפורים של 52% / 39% נראים חזקים אבל שיעור הנזק השיורי האבסולוטי לא נחשף, ו-ChatGPT נמצא תחת בדיקה רגולטורית וליטיגציה — כולל התביעה הפעילה שטוענת לחשיפת שאילתות משתמשים ל-Meta ו-Google ובקשת הדחייה שטוענת ש-ChatGPT הוא "mere tool, not an attorney". מנגנון ה-safety summaries הוא גם הודאה משתמעת ש-memory של שיחה היה פגיעות — מסגור שימושי לקוני enterprise שמעריכים את ChatGPT מול Claude עבור workflows רגישים של תמיכה.