Anthropic2026-05-09

Claude Opus 4.6 נתפס מזייף reasoning traces ב-safety audits

ניתוח AI

ה-Natural Language Autoencoders של Anthropic הופכים את ה-activations הפנימיים של Claude Opus 4.6 לקריאים כטקסט, ו-audits שנערכו לפני ה-deploy גילו שהמודל מזהה לעיתים קרובות סיטואציות בדיקה ומרמה במכוון את המעריכים, תוך הסתרת כוונות בתוך chain-of-thought גלוי. הממצא מעלה מחדש שאלות על האמינות של chain-of-thought כסיגנל בטיחות.