Hugging Face חותכת פי 100 את ה-bandwidth של async RL weight sync
Clement Delangue, מנכ"ל Hugging Face, הכריז שצוות המדע של HF הצליח להוזיל את סנכרון המשקלים האסינכרוני של RL פי 100 בערך מבחינת bandwidth — וחשוב לא פחות, ביטל את הצורך באשכול משותף בין trainer למנוע inference. עבור מודל 7B ב-bf16 זה אומר ש-~14GB לא צריכים יותר לחצות את הרשת בכל צעד RL; עבור מודל frontier של 1T ב-fp8 החיסכון קטסטרופלי מספיק כדי לשנות את מה שאפשרי ארכיטקטונית.
הטכניקה לפי הדיווחים דוחסת ומפצלת את הדלתא של המשקלים במקום לשלוח את המצב המלא, מה שמאפשר ל-trainer ול-workers של inference לחיות ב-datacenters שונים או אפילו ב-clouds שונים. זה החלק החסר ל-RLHF ול-RL agentic חסכוני על מודלים בחזית, מחוץ לאשכולות בבעלות hyperscalers.
מסגרת תחרותית: זה נוחת כשכולם — מ-Anthropic (post-training agentic של Opus 4.8) ועד xAI (RL על data מ-Cursor של Grok V9) — משקיעים בכבדות ב-pipelines של RL. Hugging Face ממצבת את עצמה כשכבת התשתית open-source שמאפשרת ל-pipelines האלה להיות זמינים למעבדות בלי רשתות פנימיות בקנה מידה של hyperscaler.
למעקב: פרסום מאמר עם benchmarks, אינטגרציה ל-TRL/Accelerate, והאם מעבדות עצמאיות ישחזרו את הטענה של פי 100 בקנה מידה.