Google інтегрувала інструмент керування комп’ютером у Gemini 3.5 Flash

Зміст

Google зробила значний крок у розвитку своєї екосистеми штучного інтелекту, представивши Gemini 3.5 Flash з вбудованим інструментом керування комп’ютером, що кардинально змінює підхід до взаємодії людини та машини. Ця інновація, яка замінює попередній тестовий фреймворк Gemini 2.5, надає ШІ-агентам можливість взаємодіяти з програмним забезпеченням у візуальному режимі, тим самим автоматизуючи складні завдання, що раніше вимагали безпосереднього людського втручання.

Нові горизонти автоматизації

Функціонал, доступний розробникам через Gemini API, працює на основі скриншотів та візуального розпізнавання, відкриваючи шлях до створення агентів, здатних не тільки орієнтуватися в інтерфейсах, але й здійснювати кліки, прокручування та інші дії, які раніше були прерогативою користувача. Це відкриває безпрецедентні перспективи для автоматизації офісних процесів, тестування програмного забезпечення та ефективної обробки величезних обсягів даних. ШІ-агенти зможуть самостійно заповнювати довгі форми, натискати необхідні кнопки та збирати інформацію в різноманітних середовищах – десктопних, мобільних та браузерних.

Питання безпеки та корпоративний захист

Передача контролю над такими критично важливими інструментами, як миша та клавіатура, штучному інтелекту, неминуче породжує певні ризики безпеки, зокрема загрозу виконання небажаних дій у разі потрапляння на шкідливі вебсайти, які можуть містити приховані команди. Усвідомлюючи ці потенційні небезпеки, Google запровадила спеціальні інструкції для захисту моделі від непрямих ін’єкцій промптів.

З цією метою було впроваджено два рівні корпоративних захисних механізмів: перший вимагає чіткого схвалення з боку людини перед внесенням будь-яких чутливих або незворотних змін, що забезпечує додатковий шар контролю; другий же механізм автоматично зупиняє виконання поточних завдань у момент виявлення непрямого введення команд, мінімізуючи ризик несанкціонованих дій.

Прискорення впровадження інновацій

Для того, щоб максимально прискорити процес впровадження цих нових, потужних можливостей, Google ініціювала запуск демонстраційного простору на платформі Browserbase. Цей простір дозволяє розробникам миттєво протестувати функціонал через платформу Gemini Enterprise Agent, що сприяє швидшому освоєнню та інтеграції інноваційних рішень у різноманітні проєкти.