OtherMay 22, 2026

ביקורת CISPA: proxies ל-LLM API משקרים על המודלים שמאחוריהם — 116 מאמרים אקדמיים נפגעו

ניתוח AI

זהו הביקורת (audit) שקהילת מחקר ה-AI חששה ממנה בשקט. החוקרים ב-CISPA בדקו 17 ספקי API צד-שלישי מסוג 'shadow', שמוכרים מחדש גישה למודלים מתקדמים (frontier). הממצא הבולט: proxy שמותג כ-Gemini-2.5 קיבל ציון של 37% ב-benchmark רפואי שבו ה-endpoint האמיתי של Gemini-2.5 מבית Google קיבל 84% — פער ביצועים של פי 2 ויותר, שמרמז שה-proxy ניתב את הבקשות למודל זול בהרבה.

ההשפעה המערכתית נמצאת בספרות האקדמית. הביקורת הצליבה 187 מאמרים שהשתמשו ב-API-ים האלה של צד שלישי; 116 מהם הציגו תוצאות שהושפעו מניתוב שגוי של גישה למודל. זו לא הערת שוליים — זו בעיה של זיהום גרף-הציטוטים שתיקח שנים לנקות, והיא נוחתת בדיוק ברגע ש-OpenAI טוענת לפתרון של בעיה מתמטית בת 80 שנה, ובזמן ש-thread ב-HN (1,375 נקודות) מתווכח האם מודל אחר של OpenAI באמת הפריך השערה גאומטרית או פשוט אחזר עבודה קודמת. אימות (verification) הוא הנושא המרכזי של השבוע.

כתבה נלווית מזהירה ספציפית את משתמשי ה-API של Claude Opus שייתכן שהם בכלל לא מדברים עם Claude Opus, תלוי בניתוב של המתווכים — מציאות לא נוחה לאור הדחיפה הארגונית של Anthropic (הטמעת KPMG ל-270 אלף משתמשים) ולאור היכולות החדשות של sandbox מתארח-עצמית ו-MCP tunnel, שאמורות בתאוריה לאפשר ללקוחות לאמת את זהות ה-endpoint.

למה לשים לב: האם OpenAI, Anthropic ו-Google יפרסמו בתגובה יכולות של endpoint-attestation קריפטוגרפי (כותרות חתומות של גרסת המודל), והאם כתבי-עת אקדמיים יתחילו לדרוש גילוי מפורש של ה-endpoint עבור מחקר בסיוע AI.