صفحه اصلی > هوش مصنوعی : گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد

گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد

مدل Gemini 2.5 Computer Use

گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی می‌تواند مانند انسان واقعی، با کلیک، اسکرول و تایپ‌کردن با وب‌سایت‌ها و رابط‌های کاربری گرافیکی تعامل داشته باشد و کارهای پیچیده‌ای را به‌صورت خودکار انجام دهد.

برخلاف مدل‌های سنتی که به API برای تعامل با نرم‌افزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را درک می‌کند: هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر به همراه درخواست کاربر دریافت می‌کند. سپس با استفاده از قابلیت‌های پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین می‌کند. در گام بعدی نیز یک اسکرین‌شات جدید گرفته می‌شود و این حلقه تا زمان تکمیل کامل وظیفه ادامه می‌یابد. این مدل درحال‌حاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپ‌کردن، کلیک، اسکرول و Drag and drop پشتیبانی می‌کند.

مدل Gemini 2.5 Computer Use گوگل

مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیده‌ای که در مرورگر انجام می‌شوند، ایده‌آل است. گوگل برای نمایش قدرت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی وظیفه پیداکردن اطلاعات حیوانات خانگی از یک وب‌سایت و واردکردن آنها در یک سیستم مدیریت مشتری (CRM) در یک وب‌سایت دیگر را برعهده می‌گیرد و حتی یک قرار ملاقات نیز برای آن‌ها تنظیم می‌کند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال به‌هم‌ریخته را با کشیدن و رهاکردن یادداشت‌ها در دسته‌بندی‌های صحیح مرتب می‌کند.

نکته جالب اینکه این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیت‌های ایجنت‌محور AI Mode جستجو است.

فرایند انجام کار مدل Gemini 2.5 Computer Use

رونمایی از این مدل، تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای «اپلیکیشن‌ها در ChatGPT»، نشان‌دهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use پاسخ مستقیم گوگل به قابلیت‌های مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

مدل Gemini 2.5 Computer Use
مقایسه بنچمارک‌های Gemini 2.5 Computer Use با مدل‌های رقیب

براساس بنچمارک‌های منتشرشده توسط گوگل، این مدل در وظایف کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااین‌حال، یک تفاوت مهم وجود دارد: مدل گوگل درحال‌حاضر فقط برای مرورگرها بهینه‌سازی شده است و برخلاف رقبای خود، هنوز قابلیت کنترل کامل سیستم‌عامل دسکتاپ را ندارد.

Gemini 2.5 Computer Use از امروز به صورت پیش‌نمایش برای توسعه‌دهندگان از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس قرار گرفته است.

طراحان خلاقی و فرهنگ پیشرو در زبان فارسی ایجاد کرد. در این صورت می توان امید داشت که تمام و دشواری موجود در ارائه راهکارها و شرایط سخت تایپ به پایان رسد.
پست های مرتبط

جایزه ۳۰ هزار دلاری برای کشف باگ در سرویس‌های هوش مصنوعی گوگل!

گوگل یک برنامه جدید اهدای پاداش بابت شناسایی باگ‌ها در محصولات هوش…

۱۴۰۴-۰۷-۱۶

OpenAI فعلاً برنامه‌ای برای نمایش تبلیغات در ChatGPT Pulse ندارد

مدیرعامل OpenAI گفته که این شرکت فعلاً برنامه‌ای برای نمایش تبلیغات در…

۱۴۰۴-۰۷-۱۵

OpenAI نقشه راهی برای توسعه هوش مصنوعی در اروپا ارائه کرد

شرکت OpenAI در همکاری با سازمان Allied for Startups گزارشی تازه با…

۱۴۰۴-۰۷-۱۵

دیدگاهتان را بنویسید