Hugging FaceMay 28, 2026

Hugging Face חותכת פי 100 את ה-bandwidth של async RL weight sync

ניתוח AI

Clement Delangue, מנכ"ל Hugging Face, הכריז שצוות המדע של HF הצליח להוזיל את סנכרון המשקלים האסינכרוני של RL פי 100 בערך מבחינת bandwidth — וחשוב לא פחות, ביטל את הצורך באשכול משותף בין trainer למנוע inference. עבור מודל 7B ב-bf16 זה אומר ש-~14GB לא צריכים יותר לחצות את הרשת בכל צעד RL; עבור מודל frontier של 1T ב-fp8 החיסכון קטסטרופלי מספיק כדי לשנות את מה שאפשרי ארכיטקטונית.

הטכניקה לפי הדיווחים דוחסת ומפצלת את הדלתא של המשקלים במקום לשלוח את המצב המלא, מה שמאפשר ל-trainer ול-workers של inference לחיות ב-datacenters שונים או אפילו ב-clouds שונים. זה החלק החסר ל-RLHF ול-RL agentic חסכוני על מודלים בחזית, מחוץ לאשכולות בבעלות hyperscalers.

מסגרת תחרותית: זה נוחת כשכולם — מ-Anthropic (post-training agentic של Opus 4.8) ועד xAI (RL על data מ-Cursor של Grok V9) — משקיעים בכבדות ב-pipelines של RL. Hugging Face ממצבת את עצמה כשכבת התשתית open-source שמאפשרת ל-pipelines האלה להיות זמינים למעבדות בלי רשתות פנימיות בקנה מידה של hyperscaler.

למעקב: פרסום מאמר עם benchmarks, אינטגרציה ל-TRL/Accelerate, והאם מעבדות עצמאיות ישחזרו את הטענה של פי 100 בקנה מידה.