Google2026-04-30

Google משחררת את reward-lens — ספריית mechanistic interpretability למודלי reward

ניתוח AI

Google הציגה את reward-lens, התאמה של כלי interpretability (logit lens, activation patching, sparse autoencoders) למודלי reward של RLHF — שמשתמשים ב-regression head סקלרי במקום unembeddings של אוצר מילים — וסגרה פער ותיק בהבנה של מה reward models באמת לומדים.