Anthropic2026-05-07
מחקר של Anthropic: ללמד ערכים לפני התנהגויות משפר alignment במצבים לא מוכרים

ניתוח AI
מאמר חדש מ-Anthropic Fellows Program מראה ש-pre-training של מודל על טקסטים שמסבירים מדוע ערכים חשובים — לפני fine-tune של התנהגויות ספציפיות — מניב היצמדות טובה משמעותית לאותם ערכים, כולל במצבים שלא נראו באימון. ממצא נלווה: מודל מסוגל שמכוון לעצור את עצמו ניתן לאימון לכושר כמעט מלא באמצעות supervisor חלש בלבד.