NVIDIA2026-04-27

LLM-as-a-Verifier של Stanford/Berkeley/NVIDIA מנצח את GPT-5.5 ב-Terminal-Bench

ניתוח AI

Stanford, Berkeley ו-NVIDIA שחררו במשותף את LLM-as-a-Verifier, framework לאימות agents שמתחבר לכל agent harness או מודל. הגדלת compute הייעודי לאימות מאפשרת ל-framework לעקוף את GPT-5.5 ואת Claude Mythos ב-Terminal-Bench וב-SWE-Bench Verified. בין מחברי המאמר Ion Stoica (Databricks), Azalia Mirhoseini (לשעבר Anthropic) ו-Marco Pavone (NVIDIA).