מודל העולם Genie של DeepMind משלב Street View לסימולציה של רחובות אמיתיים

האינטגרציה של Street View היא עדכון Genie השימושי ביותר עד כה מבחינה פרגמטית. על ידי עיגון מודל-העולם בקורפוס Street View העצום של Google, DeepMind מקבלת גיאומטריה וטקסטורה פוטוריאליסטיים בעצם לכל כביש ציבורי בעולם — ואז מוסיפה פרימיטיבי סימולציה (מזג אוויר, שעה ביום, תנועה, תרחישים נדירים) כדי לייצר נתוני training ו-evaluation עבור agents מגולמים.
מבחינה מבנית, Genie צורך כעת אריחי Street View כפריור גיאומטרי וויזואלי, ואז משתמש במודל הדינמיקה מבוסס ה-diffusion שלו כדי לפתח את הסצנה תחת שליטה של משתמש או agent. האינטגרציה היא הדוגמה הברורה ביותר עד כה לכך שנכסי הנתונים של Google (Street View, YouTube, יומני Search) משנים את חוקי המחקר ב-world-modeling — מתחרות שבונות מאפס לא יכולות להשתוות לכיסוי הגיאוגרפי.
תרחישי שימוש שהודגשו בהשקה כוללים אימון רובוטיקה (חזרות לנהיגה אוטונומית ולמשלוחי קצה), פיתוח משחקים (יצירה מיידית של שלבים ממיקומים אמיתיים), ותכנון-נסיעות (תצוגה מקדימה של מסלול במזג אוויר שרירותי). המסגרת האסטרטגית הרחבה היא החיבור ל-Gemini Omni שהוכרז באותו יום — Omni הוא מודל היצירה המולטימודלי, Genie הוא מנוע הסימולציה האינטראקטיבי, ושניהם ממוצבים כתשתית-צעד-לעבר-AGI. ספקנות: מודלי עולם שנראים פוטוריאליסטיים בצילומי מסך נכשלים לעיתים תחת שליטה אינטראקטיבית מתמשכת (קביעות-אובייקטים, סחיפה פיזיקלית, עקביות-דמויות). DeepMind טרם פרסמה evaluation ארוך-טווח שמראה שסצנות Genie נשארות קוהרנטיות תחת אינטראקציית agent של דקות רבות. שווה לעקוב אחר רפרודוקציות עצמאיות, אימוץ ע"י צוותי רובוטיקה מעבר ל-Waymo וקבוצות הרובוטיקה של Google, ושילוב בפלטפורמת המפתחים Antigravity כ-backend סימולציה.