Google2026-04-30
Google משחררת את reward-lens — ספריית mechanistic interpretability למודלי reward

ניתוח AI
Google הציגה את reward-lens, התאמה של כלי interpretability (logit lens, activation patching, sparse autoencoders) למודלי reward של RLHF — שמשתמשים ב-regression head סקלרי במקום unembeddings של אוצר מילים — וסגרה פער ותיק בהבנה של מה reward models באמת לומדים.