DeepSeek קובעת עובדה: הנחת 75% הפכה קבועה, ועוד 90% על cached tokens

DeepSeek הפכה את הנחת ה-API הזמנית בת החודש של 75% על V4-Pro לתעריף קבוע, והוסיפה מעליה הנחה של 90% על cached tokens. החברה מייחסת את הקיצוצים לרווחי efficiency אמיתיים ב-inference של long-context — לא loss-leader pricing — ומעבירה את החיסכון ישירות למפתחים. בתעריפים הנוכחיים, מיליון reasoning tokens ב-V4-Pro עולים בערך רבע ממקבילי GPT-5.5 או Claude Opus 4.7.
מכאנית, הנחת ה-cached-token מכוונת ל-cost driver הגדול ביותר ב-workloads agentic: system prompts ו-tool definitions שנשלחים שוב ושוב בכל turn. עם 90% הנחה על cached tokens, agent loops שעלו קודם 0.10 דולר ל-run עולים כעת קרוב ל-0.02 דולר — תחרותי מול setups של open-weight self-hosted, אבל באיכות reasoning ברמת frontier.
הדופק הקהילתי ב-r/LocalLLaMA ובפורום המפתחים של Google הגדיר את זה כ'מס Nvidia הוא אמיתי' — מודלים סיניים שרצים על חומרת Huawei Ascend הם כעת 'בחינם פרקטית' ל-workloads production, בהשוואה ל-frontier APIs מארה"ב. תהליך אחד בפורום של Google טען שזה כופה תגובה מבנית מ-OpenAI ו-Anthropic הרבה לפני שחרורי הקיץ שלהן.
הסייג הגיאופוליטי התחדד במקביל: ה-thread של r/LocalLLaMA על 'סין מהדקת את אישורי הנסיעה לחו"ל ל-AI talent ב-Alibaba וב-DeepSeek' (239 upvotes, 180 תגובות) מרמז שבייג'ינג מתייחסת למעבדות האלה כנכסים אסטרטגיים. עבור קוני enterprise בארה"ב, זה אומר ש-tokens זולים של DeepSeek מגיעים עם overhead של compliance — data residency, סקירת export-control, והסיכון שהמודל יוטל עליו סנקציות בדומה לשבבי Huawei.