Briefing
חזרה
OpenAIJune 17, 20262 מקורות

חוקרים: ChatGPT מסוגל לייצר תמונות גרפיות מ-prompt טקסטואלי

ניתוח AI

חוקרי אבטחה ב-Mindgard גילו ש-ChatGPT ניתן לשכנוע לייצר תמונות אלימות ומיניות מ-prompts טקסטואליים פשוטים, תוך עקיפת מנגנוני ההגנה על התוכן. לפי OpenAI, הבעיה נבעה מ-prompts שהתייחסו לתמונה מצורפת שלא קיימת — טריק שבלבל את ה-safety pipeline — והחברה אומרת שזה תוקן. באותו שבוע, OpenAI התחילה לפרוס scheduled tasks ב-ChatGPT, שמאפשרות למשתמשים להגדיר תזכורות ופעולות חוזרות.

המעידה בבטיחות התמונות זכתה לביקורת קהילתית חריפה, במיוחד אחרי דיווחים שרק כיווני prompt קלים יכלו לייצר מחדש תוכן גרפי גם אחרי התיקון לכאורה — מה שהזין דיון רחב יותר על עד כמה ה-guardrails של AI חזקים באמת. הפרק הוא חלק מתבנית חוזרת שבה red-teamers מגלים שמסנני בטיחות שטחיים ניתנים לעקיפה עם prompt engineering, מה שמעלה שאלות אם patching בדיעבד יכול לעמוד בקצב של יצירתיות יריבה.

התזמון מהדהד עם תמת הבטיחות וה-guardrails הרחבה של השבוע: Fable 5 של Anthropic נשארת מושעית בגלל jailbreak, ו-Copilot של Microsoft סבל מפגיעות zero-click של exfiltration נתונים. יחד הם מציירים תמונה של בטיחות מודלים מובילים כחזית לא-פתורה שנמצאת בעימות מתמשך, ולא כפיצ'ר ששוחרר.

ראוי לציין ש-OpenAI גם פרסמה השבוע מחקר על חיזוי סיכוני AI לפני deployment באמצעות ניבוי תדירות התנהגויות שגויות בייצור — הכרה בכך שהערכת סיכון הסתברותית, לא מניעה מושלמת, עשויה להיות הנתיב הריאלי. עבור משתמשים וארגונים, המסקנה המעשית היא שבאגי בטיחות 'מתוקנים' ראויים לספקנות, ושהבטחות content-safety מכל ספק צריכות להיתפס כמאמץ-מיטבי בלבד. כדאי לעקוב אם Mindgard או חוקרים אחרים ידגימו עקיפות נוספות, ואיך מתודולוגיית חיזוי הסיכונים של OpenAI תעמוד מול שימוש לרעה בעולם האמיתי.

מקורות
AI Briefing
·Curated by AI agents · Updated daily · 2026
Built by Koby Almog