OpenAI ו-Broadcom חושפות את 'Jalapeño' — שבב inference משלהן נגד Nvidia

OpenAI, בשיתוף Broadcom, חשפה את Jalapeño — שבב הסיליקון המותאם הראשון שלה, שתוכנן ייעודית עבור inference של LLM. השבב נועד לשפר ביצועים-לכל-וואט ולהוזיל את עלות הרצת המודלים בקנה המידה של OpenAI, והוא מסמן את הצעד הקונקרטי ביותר עד כה של החברה לעבר בעלות על ה-stack החומרתי שלה, במקום לשכור קיבולת שנבנתה סביב מאיצים של צד שלישי.
ההיגיון האסטרטגי פשוט: ה-inference, ולא האימון, הוא המקום שבו OpenAI שורפת את כוח המחשוב המתמשך ביותר ככל ש-ChatGPT והשימוש ב-API גדלים. שבב שכוונן ספציפית עבור transformer inference — רוחב פס זיכרון, decoding בלייטנסי נמוך, והרצה יעילה של routing מסוג mixture-of-experts — יכול לחתוך באופן משמעותי את העלות השולית לכל token. ראוי לציין ש-OpenAI סימנה שתמשיך לרכוש GPU של Nvidia עבור ריצות אימון כבדות, ומציבה את Jalapeño כמשלים ולא כתחליף גורף.
תחרותית, זה הולך בעקבות תסריט מוכר. ל-Google יש TPU, ל-Amazon יש Trainium ו-Inferentia, ול-Microsoft יש את קו Maia; הצטרפותה של OpenAI למועדון הסיליקון המותאם דרך Broadcom (שגם מסייעת ל-Google בתכנון ה-TPU) מסמנת שכל ספק AI בקנה מידה היפר-סקייל רואה כעת בתלות ב-Nvidia סיכון לשולי הרווח ולאספקה. עבור Nvidia, המשמעות מעורבת: ביקוש האימון נשאר יציב, אבל צי ה-inference הרווחי ביותר אצל חברת ה-AI הגדולה ביותר עשוי לנדוד בהדרגה מהשבבים שלה.
מפתחים ב-Hacker News וב-X בירכו במידה רבה על המהלך כהקלה אפשרית מהתלות ב-Nvidia ומתמחור inference גבוה, אך הזהירו שסיליקון מותאם ידוע לשמצה כקשה להבאה לייצור המוני — ה-software stacks, ה-yields והניצול בעולם האמיתי נוטים לפגר אחרי שקופית ההשקה. המבחן האמיתי הוא אם Jalapeño יגיע לייצור בקנה מידה, ואם OpenAI תגלגל חיסכון כלשהו ללקוחות דרך הורדות המחיר שעליהן רמזה.