OpenAIJune 24, 20262 מקורות

OpenAI ו-Broadcom חושפות את 'Jalapeño' — שבב inference משלהן נגד Nvidia

ניתוח AI

OpenAI, בשיתוף Broadcom, חשפה את Jalapeño — שבב הסיליקון המותאם הראשון שלה, שתוכנן ייעודית עבור inference של LLM. השבב נועד לשפר ביצועים-לכל-וואט ולהוזיל את עלות הרצת המודלים בקנה המידה של OpenAI, והוא מסמן את הצעד הקונקרטי ביותר עד כה של החברה לעבר בעלות על ה-stack החומרתי שלה, במקום לשכור קיבולת שנבנתה סביב מאיצים של צד שלישי.

ההיגיון האסטרטגי פשוט: ה-inference, ולא האימון, הוא המקום שבו OpenAI שורפת את כוח המחשוב המתמשך ביותר ככל ש-ChatGPT והשימוש ב-API גדלים. שבב שכוונן ספציפית עבור transformer inference — רוחב פס זיכרון, decoding בלייטנסי נמוך, והרצה יעילה של routing מסוג mixture-of-experts — יכול לחתוך באופן משמעותי את העלות השולית לכל token. ראוי לציין ש-OpenAI סימנה שתמשיך לרכוש GPU של Nvidia עבור ריצות אימון כבדות, ומציבה את Jalapeño כמשלים ולא כתחליף גורף.

תחרותית, זה הולך בעקבות תסריט מוכר. ל-Google יש TPU, ל-Amazon יש Trainium ו-Inferentia, ול-Microsoft יש את קו Maia; הצטרפותה של OpenAI למועדון הסיליקון המותאם דרך Broadcom (שגם מסייעת ל-Google בתכנון ה-TPU) מסמנת שכל ספק AI בקנה מידה היפר-סקייל רואה כעת בתלות ב-Nvidia סיכון לשולי הרווח ולאספקה. עבור Nvidia, המשמעות מעורבת: ביקוש האימון נשאר יציב, אבל צי ה-inference הרווחי ביותר אצל חברת ה-AI הגדולה ביותר עשוי לנדוד בהדרגה מהשבבים שלה.

מפתחים ב-Hacker News וב-X בירכו במידה רבה על המהלך כהקלה אפשרית מהתלות ב-Nvidia ומתמחור inference גבוה, אך הזהירו שסיליקון מותאם ידוע לשמצה כקשה להבאה לייצור המוני — ה-software stacks, ה-yields והניצול בעולם האמיתי נוטים לפגר אחרי שקופית ההשקה. המבחן האמיתי הוא אם Jalapeño יגיע לייצור בקנה מידה, ואם OpenAI תגלגל חיסכון כלשהו ללקוחות דרך הורדות המחיר שעליהן רמזה.

מקורות

openai.com

https://openai.com/index/openai-broadcom-jalapeno-inference-chip

techcrunch.com

https://techcrunch.com/2026/06/24/openai-unveils-its-first-custom-chip-built-by-broadcom/