Gemini 2.5 Computer Use: Google dévoile une IA capable de naviguer sur le web à la place des utilisateurs, un petit pas vers des agents intelligents plus polyvalents

C'est la prochaine révolution après les chatbots. Celle des "agents", soit des IA capables d'effectuer des tâches à la place des utilisateurs. Plusieurs entreprises se sont lancées dans cette aventure, dont Google. Proposant déjà une IA capable de coder, ainsi que des capacités agentiques dans son mode IA et ailleurs, l'entreprise veut aller plus loin.
Le 7 octobre, elle a dévoilé un nouveau modèle capable d'interagir avec le web, Gemini 2.5 Computer Use. Basé sur les capacités de compréhension et de raisonnement visuels de Gemini 2.5 Pro, il peut faire défiler des pages, naviguer dans des menus déroulants et même remplir des formulaires.
Un modèle pas encore pleinement opérationnel
Ce modèle est cependant loin d'être pleinement opérationnel. Il est uniquement disponible sous forme de démo, via Browserbase, un navigateur conçu spécifiquement pour les agents et les applications IA. Il suffit aux utilisateurs de saisir leurs requêtes pour voir Gemini 2.5 Computer Use surfer sur le web.
Google compte aussi sur les développeurs pour enrichir son modèle. Ils auront accès à une pré-version grâce à un outil appelé "computer_use", ils pourront "créer des agents de contrôle de navigateur qui interagissent avec les tâches en les automatisant", comme l'explique l'entreprise sur une page dédiée. Ils pourront ainsi créer des IA chargées d'effectuer des recherches sur différents sites web ou encore qui automatiseront la saisie répétitive de données ou le remplissage de formulaires.
Si Gemini 2.5 Computer Use n'est pas encore prêt pour un lancement public, Google s'en sert déjà pour alimenter certains de ses projets. Comme l'a révélé la société, il alimente certaines des capacités agentiques du mode IA, mais aussi Projet Mariner, agent qui navigue sur le web à la place de l'utilisateur.
Avec ce projet, elle se place une nouvelle fois en concurrence avec OpenAI et Anthropic, qui ont lancé des fonctions similaires plus tôt cette année. La première surtout semble être bien en avance par rapport au géant américain, avec Operator qui peut réserver un restaurant, commander à manger ou encore faire des courses.
Les entreprises sont encore au début de cette révolution que représente les agents. "La capacité à remplir nativement des formulaires, à manipuler des éléments interactifs comme les menus déroulants et les filtres, et à fonctionner derrière des identifiants de connexion est une étape cruciale pour créer des agents performants et polyvalents", a affirmé Google.