روایت تصویری نوآوری، حکمرانی و فناوری

۱۴۰۵-۰۳-۱۴ ۲۲:۱۶

گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد


دانلود ویدیو

گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی می‌تواند مانند انسان واقعی، با کلیک، اسکرول و تایپ‌کردن با وب‌سایت‌ها و رابط‌های کاربری گرافیکی تعامل داشته باشد و کارهای پیچیده‌ای را به‌صورت خودکار انجام دهد.برخلاف مدل‌های سنتی که به API برای تعامل با نرم‌افزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را درک می‌کند: هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر به همراه درخواست کاربر دریافت می‌کند. سپس با استفاده از قابلیت‌های پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین می‌کند. در گام بعدی نیز یک اسکرین‌شات جدید گرفته می‌شود و این حلقه تا زمان تکمیل کامل وظیفه ادامه می‌یابد. این مدل درحال‌حاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپ‌کردن، کلیک، اسکرول و Drag and drop پشتیبانی می‌کند