GoogleJune 24, 20261 מקורות

Google מביאה computer use ל-Gemini 3.5 Flash — agent זול ומהיר

ניתוח AI

Google DeepMind הביאה יכולות computer-use ל-Gemini 3.5 Flash, ומאפשרת למודל לתפוס ולפעול על ממשקים גרפיים — ללחוץ, להקליד, לנווט בדפדפנים ובאפליקציות — במקום רק לפלוט טקסט. וחשוב מכך, Google שילבה את זה בשכבת Flash, המודל המהיר והזול ביותר שלה, ולא במודל Pro דגל — סימן להימור שאוטומציה agentic מעשית זקוקה ללייטנסי נמוך ולעלות נמוכה הרבה יותר מאשר ל-reasoning בשיא.

המנגנון משקף את פרדיגמת ה-'computer use' המתהווה: המודל מקבל צילומי מסך או עצי נגישות, מסיק מה הפעולה הבאה, ומוציא פקודות UI בלולאת תפיסה-הסקה-פעולה. הצבת הלולאה הזו על מודל בלייטנסי נמוך חשובה, כי שליטת UI מסוג agentic חסומה על ידי זמן הלוך-ושוב — כל לחיצה ממתינה לקריאת inference, ולכן מודל איטי הופך משימות רב-שלביות ליקרות ושבירות באופן כואב.

זה נוחת בדיוק בתוך הנושא הדומיננטי של השבוע: agents כשכבת המחשוב החדשה. Anthropic השיקה את Claude Tag ב-Slack, xAI הוסיפה מצב /goal ארוך-טווח ל-Grok Build, ו-AWS הרחיבה את AgentCore — וכעת Google מתחרה ספציפית על כלכלת לולאת ה-agent. זה גם מתחרה ישירות ביכולת ה-computer-use של Anthropic ובכלי בסגנון operator של OpenAI, אך חותך אותם במחיר באמצעות העיגון ב-Flash.

הסיפור הגיע לעמוד הראשון של Hacker News (185 נקודות, 112 תגובות), שם מפתחים התווכחו על אמינות בעולם האמיתי — החשש הנצחי לגבי agents מסוג computer-use, שעדיין נכשלים בדפים דינמיים, ב-captchas ובמצבי UI בלתי צפויים. ההשקה מגיעה גם כש-Google אחרת על הרגל האחורית השבוע, אחרי שאיבדה חוקרים בכירים ודחתה את Gemini 3.5 Pro ליולי — מה שהופך יכולת Flash קונקרטית ומשוחררת לנרטיב-נגד שימושי.

מקורות

deepmind.google

https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/