חוקרים: ChatGPT מסוגל לייצר תמונות גרפיות מ-prompt טקסטואלי

חוקרי אבטחה ב-Mindgard גילו ש-ChatGPT ניתן לשכנוע לייצר תמונות אלימות ומיניות מ-prompts טקסטואליים פשוטים, תוך עקיפת מנגנוני ההגנה על התוכן. לפי OpenAI, הבעיה נבעה מ-prompts שהתייחסו לתמונה מצורפת שלא קיימת — טריק שבלבל את ה-safety pipeline — והחברה אומרת שזה תוקן. באותו שבוע, OpenAI התחילה לפרוס scheduled tasks ב-ChatGPT, שמאפשרות למשתמשים להגדיר תזכורות ופעולות חוזרות.
המעידה בבטיחות התמונות זכתה לביקורת קהילתית חריפה, במיוחד אחרי דיווחים שרק כיווני prompt קלים יכלו לייצר מחדש תוכן גרפי גם אחרי התיקון לכאורה — מה שהזין דיון רחב יותר על עד כמה ה-guardrails של AI חזקים באמת. הפרק הוא חלק מתבנית חוזרת שבה red-teamers מגלים שמסנני בטיחות שטחיים ניתנים לעקיפה עם prompt engineering, מה שמעלה שאלות אם patching בדיעבד יכול לעמוד בקצב של יצירתיות יריבה.
התזמון מהדהד עם תמת הבטיחות וה-guardrails הרחבה של השבוע: Fable 5 של Anthropic נשארת מושעית בגלל jailbreak, ו-Copilot של Microsoft סבל מפגיעות zero-click של exfiltration נתונים. יחד הם מציירים תמונה של בטיחות מודלים מובילים כחזית לא-פתורה שנמצאת בעימות מתמשך, ולא כפיצ'ר ששוחרר.
ראוי לציין ש-OpenAI גם פרסמה השבוע מחקר על חיזוי סיכוני AI לפני deployment באמצעות ניבוי תדירות התנהגויות שגויות בייצור — הכרה בכך שהערכת סיכון הסתברותית, לא מניעה מושלמת, עשויה להיות הנתיב הריאלי. עבור משתמשים וארגונים, המסקנה המעשית היא שבאגי בטיחות 'מתוקנים' ראויים לספקנות, ושהבטחות content-safety מכל ספק צריכות להיתפס כמאמץ-מיטבי בלבד. כדאי לעקוב אם Mindgard או חוקרים אחרים ידגימו עקיפות נוספות, ואיך מתודולוגיית חיזוי הסיכונים של OpenAI תעמוד מול שימוש לרעה בעולם האמיתי.