Samsung Research פרסמה את LookaheadKV, טכניקה לפינוי מהיר ומדויק של KV cache שמציצה לעתיד בלי להשלים generation מלא, ומשפרת את יעילות ה-inference.