MetaMay 18, 20261 מקורות

ExecuTorch MLX delegate מביא inference של PyTorch בהאצת GPU ל-Apple Silicon

ניתוח AI

ה-delegate של MLX מטפל בפער מתמשך: מפתחי PyTorch שמיקדו ל-Apple Silicon נאלצו היסטורית לבחור בין להישאר ב-PyTorch (ניצול GPU תת-אופטימלי) או לעבור ל-MLX (יישום מחדש של pipelines). מודל ה-delegate של ExecuTorch מנתב כעת את הפעולות הנתמכות דרך MLX תוך שמירה על משטח הכתיבה של PyTorch.

למפתחי מודלים שמשיקים AI מקומי על Mac (השכבה שהופכת רלוונטית יותר ויותר ככל שאפליקציות הדסקטופ של ChatGPT, Claude ו-Gemini מתרבות), זה מוריד מהותית את עלות ה-inference ואת טביעת האנרגיה של פיצ'רים on-device. זוהי גם יישור-קו שקט בין Meta (מתחזקת PyTorch) לכלי הפיתוח של Apple — שימו לב שבאותו שבוע Apple חושפת ש-Siri המחודש של iOS 27 נשען על Google Gemini.

הדפוס הרחב: interop ברמת framework הופך למשטח תחרותי ב-2026. PyTorch 2.11 שיגרה גם wheels של CUDA ל-aarch64 ישירות מ-PyPI, ו-Inference Endpoints v2 של Hugging Face הוסיפה deploy של vLLM בקליק. הפחתת חיכוך לרוחב מחסנית ה-inference מועילה לכל ספק מודלים, אבל בעיקר ל-open-weights.

מה לעקוב הלאה: האם Apple תשיק יישומי refrence first-party מותאמי MLX למודלים פתוחים פופולריים (Llama 4, Qwen3, Gemma 4) לאחר WWDC, והאם פערי הכיסוי של פעולות ב-delegate יצטמצמו לקראת שוויון עם CUDA.

מקורות

pytorch.org

https://pytorch.org/blog/running-pytorch-models-on-apple-silicon-gpus-with-the-executorch-mlx-delegate/