Deepmind dévoile sa première IA robotique pensante, faite de deux modèles qui interagissent et consultent internet pour mener à bien leur mission

Grâce aux nouveaux modèles de Deepmind, des robots peuvent réaliser des tâches complexes. - Google Deepmind
Si Google se fait fort de démontrer que Gemini a toute sa place pour changer nos vies quotidiennes, son assistant intelligent sert aussi, sous d'autres formes, dans le domaine de la robotique. En mars, l'entreprise a présenté une nouvelle famille de modèles baptisée Gemini Robotics, permettant aux robots de percevoir, raisonner, utiliser des outils et interagir avec les humains. Ces machines peuvent aussi résoudre des tâches complexes.
Mais Google veut aller plus loin pour développer des robots véritablement polyvalents. Dans cet objectif, Deepmind, sa filiale spécialisée dans l'IA, a dévoilé deux nouveaux modèles "offrant des expériences agentiques grâce à une réflexion avancée", comme elle l'a indiqué dans un article de blog. En vue de réaliser des tâches plus élaborées, les robots équipés de ces modèles peuvent se connecter à internet pour obtenir de l'aide.
Réfléchir avant d'agir
Ainsi, un robot parvient par exemple à trier des déchets, le compost et les matières recyclables à partir d'une recherche sur internet adaptée aux exigences spécifiques d'un lieu (San Francisco, dans le cas présent) comme le montre une vidéo. Cette tâche, comme beaucoup d'autres, nécessite des informations contextuelles et plusieurs étapes pour être accomplie. Après avoir cherché les directives locales en matière de recyclage sur internet, la machine examine les objets devant elle et détermine comment les trier en fonction des informations récoltées, avant d'agir.
Pour aider une personne à faire son sac pour un voyage à Londres, un autre robot regarde, lui, la météo afin de lui dire s'il va pleuvoir et de lui rappeler de mettre un parapluie dans son sac. Pour y parvenir, les deux modèles travaillent ensemble. Le premier, Gemini Robotics-ER 1.5, orchestre les activités d'un robot "à la manière d'un cerveau de haut niveau", selon Deepmind. Il s'agit d'un modèle vision-langage (VLM) capable de raisonner sur le monde physique, mais aussi d'utiliser des outis numériques et de créer des plans détaillés en plusieurs étapes de manière native afin de mener à bien une mission.
"Ce modèle excelle dans la planification et la prise de décisions logiques dans des environnements physiques. Il dispose d'une compréhension spatiale de pointe, interagit en langage naturel, évalue son succès et ses progrès", a affirmé la filiale de Google.
Une fois que Gemini Robotics-ER 1.5 a réfléchi, il donne des instructions à Gemini Robotics 1.5, qui est un modèle vision-langage-action (VLA) capable de transformer ces instructions en commandes motrices pour le robot. Il utilise sa vision et sa compréhension du langage pour effectuer directement les actions spécifiques.
Plus surprenant encore, ce modèle d'IA est capable de transférer les mouvements appris d'un robot à un autre, sans qu'une spécialisation soit nécessaire pour chaque nouvelle incarnation. "Cette avancée accélère l'apprentissage de nouveaux comportements, aidant les robots à devenir plus intelligents et plus utiles", a affirmé Deepmind.
"Gemini Robotics 1.5 marque une étape importante vers la résolution de problèmes d'IA générale dans le monde physique", s'est réjoui la filiale de Google.
Comme d'autres entreprises, Google souhaite parvenir à une IA qui serait aussi intelligente que les humains et capable d'effectuer des tâches complexes comme nous le faisons. Certains acteurs, comme OpenAI, estiment s'en rapprocher avec les agents IA et les LLM, au point de n'être qu'à quelques années d'un tel avènement. D'autres, comme Yann Le Cun, pensent qu'à terme une intelligence artificelle générale est inéluctable, mais que la route pour y arriver est encore longue...