Deepmind dévoile sa première IA robotique pensante, faite de deux modèles qui interagissent et consultent internet pour mener à bien leur mission

Hier à 15h24

Grâce aux nouveaux modèles de Deepmind, des robots peuvent réaliser des tâches complexes. - Google Deepmind

La filiale de Google a présenté deux nouveaux modèles d'IA: Gemini Robotics 1.5 et Gemini Robotics-ER 1.5. Ils travaillent ensemble pour aider des robots à réaliser des tâches complexes comme trier des déchets ou préparer un sac de voyage.

Si Google se fait fort de démontrer que Gemini a toute sa place pour changer nos vies quotidiennes, son assistant intelligent sert aussi, sous d'autres formes, dans le domaine de la robotique. En mars, l'entreprise a présenté une nouvelle famille de modèles baptisée Gemini Robotics, permettant aux robots de percevoir, raisonner, utiliser des outils et interagir avec les humains. Ces machines peuvent aussi résoudre des tâches complexes.

Mais Google veut aller plus loin pour développer des robots véritablement polyvalents. Dans cet objectif, Deepmind, sa filiale spécialisée dans l'IA, a dévoilé deux nouveaux modèles "offrant des expériences agentiques grâce à une réflexion avancée", comme elle l'a indiqué dans un article de blog. En vue de réaliser des tâches plus élaborées, les robots équipés de ces modèles peuvent se connecter à internet pour obtenir de l'aide.

Réfléchir avant d'agir

Ainsi, un robot parvient par exemple à trier des déchets, le compost et les matières recyclables à partir d'une recherche sur internet adaptée aux exigences spécifiques d'un lieu (San Francisco, dans le cas présent) comme le montre une vidéo. Cette tâche, comme beaucoup d'autres, nécessite des informations contextuelles et plusieurs étapes pour être accomplie. Après avoir cherché les directives locales en matière de recyclage sur internet, la machine examine les objets devant elle et détermine comment les trier en fonction des informations récoltées, avant d'agir.

Pour aider une personne à faire son sac pour un voyage à Londres, un autre robot regarde, lui, la météo afin de lui dire s'il va pleuvoir et de lui rappeler de mettre un parapluie dans son sac. Pour y parvenir, les deux modèles travaillent ensemble. Le premier, Gemini Robotics-ER 1.5, orchestre les activités d'un robot "à la manière d'un cerveau de haut niveau", selon Deepmind. Il s'agit d'un modèle vision-langage (VLM) capable de raisonner sur le monde physique, mais aussi d'utiliser des outis numériques et de créer des plans détaillés en plusieurs étapes de manière native afin de mener à bien une mission.

"Ce modèle excelle dans la planification et la prise de décisions logiques dans des environnements physiques. Il dispose d'une compréhension spatiale de pointe, interagit en langage naturel, évalue son succès et ses progrès", a affirmé la filiale de Google.

Une fois que Gemini Robotics-ER 1.5 a réfléchi, il donne des instructions à Gemini Robotics 1.5, qui est un modèle vision-langage-action (VLA) capable de transformer ces instructions en commandes motrices pour le robot. Il utilise sa vision et sa compréhension du langage pour effectuer directement les actions spécifiques.

Plus surprenant encore, ce modèle d'IA est capable de transférer les mouvements appris d'un robot à un autre, sans qu'une spécialisation soit nécessaire pour chaque nouvelle incarnation. "Cette avancée accélère l'apprentissage de nouveaux comportements, aidant les robots à devenir plus intelligents et plus utiles", a affirmé Deepmind.

"Gemini Robotics 1.5 marque une étape importante vers la résolution de problèmes d'IA générale dans le monde physique", s'est réjoui la filiale de Google.

Comme d'autres entreprises, Google souhaite parvenir à une IA qui serait aussi intelligente que les humains et capable d'effectuer des tâches complexes comme nous le faisons. Certains acteurs, comme OpenAI, estiment s'en rapprocher avec les agents IA et les LLM, au point de n'être qu'à quelques années d'un tel avènement. D'autres, comme Yann Le Cun, pensent qu'à terme une intelligence artificelle générale est inéluctable, mais que la route pour y arriver est encore longue...

Kesso Diallo

Les plus lus

A la Une

"C'est une arnaque!": Karine Le Marchand met en garde ses abonnés contre les brouteurs

Deepmind dévoile sa première IA robotique pensante, faite de deux modèles qui interagissent et consultent internet pour mener à bien leur mission

Réfléchir avant d'agir

Les plus lus

"Je suis innocent": condamné, Nicolas Sarkozy assure qu'il "dormira en prison la tête haute"

Légionellose: six cas dont deux mortels en Haute-Saône

INFO BFMTV. Trois chansons inédites de Charles Aznavour dévoilées en exclusivité

Un homme retrouvé mort dans les toilettes d'un fast-food 30 heures plus tard, sa famille tire la sonnette d'alarme

"Ghosting" interdit, formule VIP à 5.000 euros, déclaration de patrimoine… Karine Le Marchand lance un club de rencontre qui vérifie drastiquement le profil des participants

A la Une