گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی میتواند مانند انسان واقعی، با کلیک، اسکرول و تایپکردن با وبسایتها و رابطهای کاربری گرافیکی تعامل داشته باشد و کارهای پیچیدهای را بهصورت خودکار انجام دهد.برخلاف مدلهای سنتی که به API برای تعامل با نرمافزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط کاربری گرافیکی (GUI) را درک میکند: هوش مصنوعی یک اسکرینشات از صفحه مرورگر به همراه درخواست کاربر دریافت میکند. سپس با استفاده از قابلیتهای پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین میکند. در گام بعدی نیز یک اسکرینشات جدید گرفته میشود و این حلقه تا زمان تکمیل کامل وظیفه ادامه مییابد. این مدل درحالحاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپکردن، کلیک، اسکرول و Drag and drop پشتیبانی میکند