Gemini Embedding 2 של DeepMind: RAG מולטימודלי native על טקסט, תמונה, וידאו, אודיו וקוד

Google DeepMind שחררה את Gemini Embedding 2 ב-29 במאי דרך ה-Gemini API ו-Google Cloud Vertex AI. בניגוד לרוב מודלי ה-embedding, שמטמיעים טקסט ואז מצמידים encoders של תמונה או אודיו, Gemini Embedding 2 הוא natively multimodal — מודל יחיד מייצר embeddings לטקסט, תמונה, וידאו, אודיו, מסמכים וקוד לתוך מרחב וקטורים משותף. ההצעה פשוטה: לבנות מערכת RAG שמחפשת בספריית וידאו, ב-repository של קוד וב-corpus של PDF עם index אחד ו-query אחד.
Google מדווחת על תוצאות state-of-the-art על פני מספר benchmarks של embedding (מספרים ספציפיים לא נחשפו בהודעה שכוסתה כאן), וממצבת את המודל מול text-embedding-3 של OpenAI, Cohere Embed v3 ו-Voyage AI. השחרור משתלב בפיבוט agentic רחב יותר של Google I/O 2026: Gemini 3.5 Flash משמש כעת כברירת מחדל ב-AI Mode, Personal Intelligence התרחבה לכמעט 200 מדינות ב-98 שפות, וההצעה של Google לאנליסטים (לפי Ken Huang) ממסגרת את Gemini 3.5 Flash כ-'distributed agent runtime' על פני Antigravity, Spark ו-Workspace.
תגובת המפתחים מעורבת. בפורומי הפיתוח של Google AI עצמה, פוסט ששותף רבות בכותרת 'Gemini הפך ל-frontier AI הכי לא אמין — אנחנו צריכים תיקונים ולא פיצ׳רים חדשים' תפס את התסכול מרגרסיות אמינות במהלך קצב השחרור המהיר. במקביל, ניתוח ב-Medium שטען ש-Google מחזיקה בחמישה יתרונות מבניים על פני OpenAI — הפצה, סיליקון TPU, נתונים, talent ואינטגרציה — הופץ רבות כשמפתחים העריכו מחדש את נרטיב המוביל.
מה לעקוב הלאה: benchmarks עצמאיים (MTEB-Multimodal, BEIR-image), תמחור יחסית ל-embeddings של OpenAI, והאם ארגונים יאחדו את stack ה-retrieval של טקסט+תמונה+אודיו לתוך index אחד של Gemini במקום לשמור מודלי embedding מתמחים לכל modality.