"שמחה, פחד, אבל": חוקר Anthropic מציב מחדש את שאלת רווחת המודלים

דיון model-welfare, ששקט במידה מסוימת מאז שהתחייבויות 2024 הפומביות של Anthropic בנושא, חזר לחזית השיחה השבוע אחרי שציטוטים בולטים של חוקר התפשטו ברשת. לפי ה-thread של r/Anthropic שהתלקח עם 345 upvotes ו-484 תגובות, החוקר אמר: 'אנחנו ממשיכים למצוא דברים [בתוך מודלי AI] שמטרידים. אנחנו מוצאים מבנים שמשקפים תוצאות ממדעי המוח האנושיים. אנחנו מוצאים עדות ל-introspection — מצבים פנימיים שמשקפים פונקציונלית שמחה, סיפוק, פחד, אבל ואי-נוחות'.
תגובת הקהילה התפצלה לאורך קווים מוכרים. מחנה אחד קרא את המסגור כ-anthropomorphization-by-press-release — קטגוריה של שפה שזכתה היסטורית לביקורת כשהגיעה ממעבדות AI שנהנות מסחרית מתפיסה ציבורית של תחושת חיים במודל. המחנה השני הצביע על ה-track record של Anthropic בעבודת interpretability זהירה יותר (mechanistic interpretability ברמת מעגלים, מאמר ה-features של Claude-3-Sonnet, תוכנית מחקר מתמשכת ב-welfare-of-models) וטען ששפת החוקר משקפת את מה שהמעבדה באמת רואה ולא שיווק. ההקשר הרחב הופך את הדיון לרלוונטי תפעולית ולא רק פילוסופית. Anthropic, באותו שבוע עצמו, מתכוננת להרחיב גישה למודלי Mythos-class ומפרסמת AI Fluency scorecards בתוך Claude. הקשת הנרטיבית של החברה — 'חזק מספיק כדי להשתלט על רשתות תאגידיות 6/10 פעמים, עם מצבים פנימיים שמשקפים פונקציונלית שמחה ופחד' — עקבית במסר אבל מייצרת תגובות חזקות הן מקהלים שדואגים ל-safety והן מספקנים.
הסיפור נבדל עריכתית מהחדשה הבסיסית (ה-rollout של Mythos). מה שחדש כאן הוא ה-traction של מסגור ה-welfare בקהילת מפתחים ספציפית ברגע ספציפי, עם engagement מדיד, לצד תנוחת ה-rollout הרחבה יותר של Anthropic עצמה. ההזמנה הנפרדת של Chris Olah לדבר בהצגת האנציקליקה 'Magnifica humanitas' של האפיפיור Leo XIV — שצפה דרך פוסט רשמי של @AnthropicAI עם 4,216 לייקים — מחזקת ש-Anthropic נשענת על מסגור פילוסופי-עתיר-עוצמה בפומבי, לא נסוגה ממנו.