گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی میتواند مانند انسان واقعی، با کلیک، اسکرول و تایپکردن با وبسایتها و رابطهای کاربری گرافیکی تعامل داشته باشد و کارهای پیچیدهای را بهصورت خودکار انجام دهد.
برخلاف مدلهای سنتی که به API برای تعامل با نرمافزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را درک میکند: هوش مصنوعی یک اسکرینشات از صفحه مرورگر به همراه درخواست کاربر دریافت میکند. سپس با استفاده از قابلیتهای پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین میکند. در گام بعدی نیز یک اسکرینشات جدید گرفته میشود و این حلقه تا زمان تکمیل کامل وظیفه ادامه مییابد. این مدل درحالحاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپکردن، کلیک، اسکرول و Drag and drop پشتیبانی میکند.
مدل Gemini 2.5 Computer Use گوگل
مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیدهای که در مرورگر انجام میشوند، ایدهآل است. گوگل برای نمایش قدرت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی وظیفه پیداکردن اطلاعات حیوانات خانگی از یک وبسایت و واردکردن آنها در یک سیستم مدیریت مشتری (CRM) در یک وبسایت دیگر را برعهده میگیرد و حتی یک قرار ملاقات نیز برای آنها تنظیم میکند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال بههمریخته را با کشیدن و رهاکردن یادداشتها در دستهبندیهای صحیح مرتب میکند.
نکته جالب اینکه این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیتهای ایجنتمحور AI Mode جستجو است.
رونمایی از این مدل، تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای «اپلیکیشنها در ChatGPT»، نشاندهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use پاسخ مستقیم گوگل به قابلیتهای مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

براساس بنچمارکهای منتشرشده توسط گوگل، این مدل در وظایف کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااینحال، یک تفاوت مهم وجود دارد: مدل گوگل درحالحاضر فقط برای مرورگرها بهینهسازی شده است و برخلاف رقبای خود، هنوز قابلیت کنترل کامل سیستمعامل دسکتاپ را ندارد.
Gemini 2.5 Computer Use از امروز به صورت پیشنمایش برای توسعهدهندگان از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI در دسترس قرار گرفته است.