זיכרון הוא כבר כמעט שני שלישים מעלות הרכיבים של שבב AI

ניתוח שזכה לתפוצה רחבה מדווח שרכיב הזיכרון תפח לכמעט שני שלישים מעלות הרכיבים הכוללת של שבבי AI — תזוזה דרמטית מהתקופה שבה ה-logic die היה הרכיב היקר ביותר ברשימת החומרים. מה שמניע את זה הוא הביקוש הבלתי-נדלה ל-high-bandwidth memory (HBM) שנדרש כדי להאכיל מודלים שהולכים וגדלים וחלונות context ארוכים יותר. ה-bandwidth של הזיכרון, ולא כוח ה-compute הגולמי, הופך יותר ויותר לצוואר הבקבוק האמיתי בביצועי ה-inference.
המנגנון הוא מבני: ה-inference בחזית כיום הוא memory-bound. הרצה של מודל 70B עם context ארוך דורשת מאות גיגה-בייטים רק כדי להחזיק את ה-weights ואת ה-KV cache, והעלות והזמינות של HBM קובעות במידה הולכת וגוברת את הכלכלה של חומרת AI. בדיוק בגלל זה quantization של ה-KV cache (FP8/INT8) וטכניקות compression חדשות כמו KVarn של Huawei (שאסף 415 לייקים ב-r/LocalLLaMA) הפכו לתחומי מחקר לוהטים.
ההשלכות מתפזרות על פני כל החדשות של השבוע: זה עוזר להסביר את ה-capex העצום של Meta ואת מכירת המניות שדווחה, את כוח התמחור של NVIDIA, ואת הדחיפה התעשייתית הרוחבית לכיוון יעילות (Gemma 4 QAT, התכנון ההיברידי מבוסס Mamba של Nemotron, וטענות ה-compression של HKGAI-V3). מי ששולט באספקת הזיכרון וביעילות שלו — שולט ב-margins של ה-AI.
השורה התחתונה המעשית למפתחים: אופטימיזציה של טביעת הרגל בזיכרון — quantization, sparsity מסוג MoE, וארכיטקטורות state-space — חשובה כיום בדיוק כמו איכות המודל הגולמית כשמדובר בכלכלה של production. שווה לעקוב אחרי דינמיקת אספקת ה-HBM בין Samsung, SK Hynix ו-Micron, ולשאלה אם עלות הזיכרון תכפה התפכחות סביב הקיימוּת של תמחור inference זול.