Meta2026-05-12

Meta וסטנפורד מציעות Fast Byte Latent Transformer שחותך יותר מ-50% מרוחב הפס ב-inference

ניתוח AI

חוקרים מ-Meta FAIR ו-Stanford הציגו שלוש שיטות inference ל-Byte Latent Transformer שמפחיתות את עלויות ה-memory bandwidth ביותר מ-50% בלי subword tokenization — שיפור משמעותי ביעילות של serving ל-LLMs ללא tokenizer ובהוגנות multilingual.