OtherMay 30, 2026

Liquid AI משיקה את LFM2.5-8B-A1B — MoE שאומן על 38 טריליון tokens

ניתוח AI

Liquid AI שחררה ב-30 במאי את LFM2.5-8B-A1B, מודל mixture-of-experts עם 8B פרמטרים סה"כ ו-1B אקטיביים per token, שאומן על 38 טריליון tokens. נתון 38T tokens האימון בולט — הוא גדול מהקורפוס ש-Meta ציינה ל-Llama 3 (15T) ובר-השוואה לריצות אימון של מודלי frontier עתירי-דאטה ביותר שפורסמו. ספירת הפרמטרים האקטיביים (1B) משמעה שעלות ה-inference שקולה בקירוב ל-1B בזמן שהאיכות נהנית ממאגר ה-experts המלא של 8B.

ההשקה היא הערך החדש במה שהפך למרוץ MoE יעיל וצפוף: שושלת Mixtral של Mistral, MoE V3/V4 של DeepSeek, וכעת LFM2.5 של Liquid. Hacker News (159 נקודות) מיצב את המודל כעוד נציג small-MoE אמין המאתגר את ה-incumbents הצפופים. השאלה האסטרטגית ש-Liquid בוחנת: האם 8B-A1B מאומן היטב יכול להשתוות למודלים צפופים של 30B+ במשימות פרקטיות, בשבריר מעלות ה-inference? אם כן, ההשלכות על מודלי ה-capex של ה-hyperscalers משמעותיות.

זה משתלב בתמה רחבה מהשבוע: קהילת המפתחים-מתרגלים מתמקדת יותר ויותר ב-frontier של מחיר-ביצועים ולא ב-frontier של איכות מוחלטת. האותות המקבילים הם הפחתת מחיר של 75% ב-DeepSeek V4-Pro, טענת ה-self-hosting של Mistral Medium 3.5 על 4 GPUs, ה-grok-build-0.1 של xAI ב-1/2 דולר למיליון tokens, והפוסט שתפוצתו רחבה על הרצת מודלי 30B ב-53 tokens-per-second על MacBook M4 Pro. מעבדות frontier אמריקאיות סגורות שגובות 5+ דולר למיליון על inference נמצאות תחת לחץ מבני.

כדאי לעקוב: benchmarks עצמאיים של LFM2.5-8B-A1B מול Mixtral, DeepSeek V4 ווריאנטים של Qwen3-MoE; האם הטענות הארכיטקטוניות של Liquid (המעוגנות בעבודת ה-'Liquid Neural Network' המייסדת) מתורגמות ליתרונות מדידים; והאם ניתן לאמת את טענת אימון 38T tokens.