OtherJune 6, 20261 מקורות

זיכרון הוא כבר כמעט שני שלישים מעלות הרכיבים של שבב AI

ניתוח AI

ניתוח שזכה לתפוצה רחבה מדווח שרכיב הזיכרון תפח לכמעט שני שלישים מעלות הרכיבים הכוללת של שבבי AI — תזוזה דרמטית מהתקופה שבה ה-logic die היה הרכיב היקר ביותר ברשימת החומרים. מה שמניע את זה הוא הביקוש הבלתי-נדלה ל-high-bandwidth memory (HBM) שנדרש כדי להאכיל מודלים שהולכים וגדלים וחלונות context ארוכים יותר. ה-bandwidth של הזיכרון, ולא כוח ה-compute הגולמי, הופך יותר ויותר לצוואר הבקבוק האמיתי בביצועי ה-inference.

המנגנון הוא מבני: ה-inference בחזית כיום הוא memory-bound. הרצה של מודל 70B עם context ארוך דורשת מאות גיגה-בייטים רק כדי להחזיק את ה-weights ואת ה-KV cache, והעלות והזמינות של HBM קובעות במידה הולכת וגוברת את הכלכלה של חומרת AI. בדיוק בגלל זה quantization של ה-KV cache (FP8/INT8) וטכניקות compression חדשות כמו KVarn של Huawei (שאסף 415 לייקים ב-r/LocalLLaMA) הפכו לתחומי מחקר לוהטים.

ההשלכות מתפזרות על פני כל החדשות של השבוע: זה עוזר להסביר את ה-capex העצום של Meta ואת מכירת המניות שדווחה, את כוח התמחור של NVIDIA, ואת הדחיפה התעשייתית הרוחבית לכיוון יעילות (Gemma 4 QAT, התכנון ההיברידי מבוסס Mamba של Nemotron, וטענות ה-compression של HKGAI-V3). מי ששולט באספקת הזיכרון וביעילות שלו — שולט ב-margins של ה-AI.

השורה התחתונה המעשית למפתחים: אופטימיזציה של טביעת הרגל בזיכרון — quantization, sparsity מסוג MoE, וארכיטקטורות state-space — חשובה כיום בדיוק כמו איכות המודל הגולמית כשמדובר בכלכלה של production. שווה לעקוב אחרי דינמיקת אספקת ה-HBM בין Samsung, SK Hynix ו-Micron, ולשאלה אם עלות הזיכרון תכפה התפכחות סביב הקיימוּת של תמחור inference זול.

מקורות

dev.to

https://dev.to/crescevo/memory-has-grown-to-nearly-two-thirds-of-ai-chip-component-costs-42kd