Vue normale

Reçu aujourd’hui — 12 octobre 2025

Gemini 2.5 Computer Use : l’agent Google qui clique, tape et scrolle pour vous

Par :Max
12 octobre 2025 à 18:55

Gemini 2.5 Computer Use est le nouveau modèle de Google dédié aux agents capables d’agir dans une interface web comme un humain. Il “voit” l’écran, comprend le contexte, puis décide où cliquer, quoi taper, et quand faire défiler. Cette approche vise tous les cas où l’on n’a pas d’API, mais où un navigateur suffit pour accomplir une tâche de bout en bout.

Ce que l’agent sait faire et pour quoi l’utiliser

Concrètement, l’agent exécute des actions UI standardisées : ouvrir une page, suivre un lien, remplir un formulaire, valider un paiement test, ou récupérer une information derrière un login. Grâce à la vision d’écran, il repère les éléments visuels même si leur code change légèrement. Dès lors, on automatise des parcours métiers côté web sans réécrire des scripts fragiles.
Dans un premier temps, l’accent porte sur le navigateur. C’est un choix pragmatique : le web est l’interface universelle des services modernes. Par conséquent, on cible des scénarios à fort ROI comme l’e-commerce, le support client, la qualification de leads, les tests UI, ou la collecte d’informations structurées.

Comment fonctionne la boucle d’actions

Le fonctionnement suit un schéma simple et robuste. D’abord, votre application capture l’écran et passe l’historique des pas déjà effectués. Ensuite, Gemini 2.5 Computer Use propose la “prochaine meilleure action” sous forme d’instruction structurée : clic, saisie, scroll, raccourci clavier, ou navigation. Puis votre app exécute cette action via l’automatisation du navigateur et renvoie une nouvelle capture.
Cette boucle de perception-action se répète jusqu’à réussite, blocage, ou attente d’une confirmation. Ainsi, l’agent reste explicable : chaque pas est loggé, rejouable et auditable. En outre, ce design facilite le “retry” ou l’adaptation à des variations d’interface, ce qui améliore la robustesse en production.

Benchmarks et premiers retours

Côté performance, les derniers benchmarks publics indiquent un taux de réussite élevé sur des suites de tâches du monde réel. Sur un test de navigation complexe, le modèle atteint 79,9 % de succès, devant des agents concurrents qui plafonnent plus bas. Sur d’autres évaluations multi-sites, il se classe également en tête, avec une latence en baisse et des coûts maîtrisés.
Sur le terrain, les premiers pilotes rapportent des exécutions plus rapides que les alternatives, parfois jusqu’à 50 % selon les scénarios. Par ailleurs, l’orientation “web d’abord” simplifie l’adoption : les équipes peuvent brancher l’agent dans leurs pipelines QA, leurs assistants internes, ou leurs scripts d’automatisation sans refonte d’outillage.

Sécurité : confirmations et garde-fous par étape

Google a conçu une surcouche de sécurité qui analyse chaque étape avant exécution. Dès qu’une action présente un risque — par exemple cliquer sur “Acheter maintenant”, lire un document médical, ou envoyer un message sensible — l’agent doit demander une confirmation explicite. De plus, des politiques contrôlent l’accès aux données, les domaines autorisés, et les opérations critiques.
Ce modèle de “permission granulaire” réduit les erreurs coûteuses et rassure les équipes conformité. Mieux, il favorise l’adoption dans des contextes réglementés, car les actions deviennent traçables et gouvernées. Ainsi, les responsables produit gardent la main, tout en déléguant l’exécution répétitive à l’IA.

Limites actuelles et feuille de route implicite

Aujourd’hui, le périmètre privilégié est le navigateur. L’agent n’a pas vocation, pour l’instant, à piloter l’intégralité d’un système d’exploitation. Toutefois, la boucle perception-action, la vision de l’écran, et l’outillage développeur laissent penser que l’extension à d’autres surfaces d’UI suivra. En attendant, les cas d’usage web couvrent déjà une large part des besoins opérationnels.

Comment démarrer

Pour tester rapidement, on passe par AI Studio ou par Vertex AI. On décrit la tâche, on donne les accès nécessaires, et on branche l’exécution du navigateur. Ensuite, on mesure la fiabilité sur vos parcours et on rajuste les “prompts d’agent”, les timeouts, et les règles de confirmation. Enfin, on industrialise via des files de jobs et de la télémétrie, afin d’observer les taux de succès dans le temps.

Gemini 2.5 Computer Use apporte un vrai saut pour les agents web. Il combine vision d’écran, planification d’actions, et garde-fous solides. Résultat : des workflows plus rapides, plus fiables et plus sûrs, sans dépendre d’intégrations API fragiles.

Cet article original intitulé Gemini 2.5 Computer Use : l’agent Google qui clique, tape et scrolle pour vous a été publié la première sur SysKB.

Test de l’Amazfit Helio Strap : trois mois avec le premier concurrent du bracelet Whoop

12 octobre 2025 à 18:00

Whoop a popularisé le bracelet connecté sans écran orienté récupération. Amazfit tente le même pari avec son Helio Strap, mais à 99 euros et sans abonnement. De quoi rendre le concept enfin accessible ?
 [Lire la suite]

Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.

Reçu avant avant-hier

Meilleures webcams : quel modèle choisir en 2025 ?

Que ce soit pour le travail, le streaming ou pour faire des appels vidéo avec vos proches, choisir une webcam de qualité est essentiel. Dans ce guide, nous vous présentons les meilleures options disponibles selon votre usage. Notre sélection des...

Coupe du monde 2026 : où suivre le match entre la France et l’Azerbaïdjan ?

10 octobre 2025 à 08:24

La France de Didier Deschamps a idéalement lancé sa campagne des éliminatoires pour la Coupe du monde 2026. Et les Bleus ont à peine le temps de dire ouf qu'ils doivent déjà jouer un troisième match, face à l'Azerbaïdjan. Rendez-vous ce vendredi soir, à partir de 20h45.

Ne perdez pas votre temps avec le solo de Battlefield 6

10 octobre 2025 à 05:30

Battlefield 6 opère un vrai retour en force de la saga d'Electronic Arts, sur le terrain des jeux en ligne. En revanche, la campagne solo est, au mieux, risible. Elle n'est qu'une démonstration technique insipide, qu'on ne conseille même pas avant de se lancer dans les batailles à plusieurs.

Stranger Things saison 5 : date de sortie, histoire, casting, toutes les infos sur la saison finale

Après tout ce que nous a donné la dernière saison, difficile de ne pas attendre la saison 5 de Netflix comme l'événement culturel le plus important de l'histoire de la SVOD. Voici tout ce que nous en savons pour le...

Les développeurs de l’excellent Alien: Isolation ont été dépassés par l’intelligence de la créature

7 octobre 2025 à 12:03

Alien: Isolation retranscrit à merveille le premier film de la saga culte, réalisé par Ridley Scott. On fait face à un xénomorphe à l'intelligence affutée. À un point tel qu'elle a dépassé les attentes des développeurs.

Battlefield 6 aura un patch immense à son lancement, avec des centaines de changements

7 octobre 2025 à 08:26

À quelques jours du lancement de Battlefield 6, Battlefield Studios et Electronic Arts ont fait un ultime point d'étape. Les longues et nombreuses phases de tests aboutiront à une première mise à jour avec plus de 200 changements.

On sait enfin à quoi sert la moto étrange dans Metroid Prime 4: Beyond

7 octobre 2025 à 07:13

Dans Metroid Prime 4: Beyond, l'héroïne Samus Aran pourra piloter une moto. Nintendo avait dévoilé l'engin au cours du dernier Nintendo Direct, sans trop préciser son utilité. Le site officiel offre quelques détails supplémentaires.

❌