Pourquoi Pokémon est devenu un critère de comparaison pour les IA

Il sera peut-être un jour le meilleur dresseur. Dans un communiqué datant du 24 février 2025, l'entreprise américaine Anthropic a annoncé la sortie de sa nouvelle IA Claude 3.7 Sonnet. Dans le cadre d'un test de performance, cette nouvelle version de Claude a quasiment réussi à atteindre la moitié du jeu Pokémon rouge, soit trois badges d'arène.
Les jeux vidéo pourraient ainsi devenir un moyen pour les différents modèles d'IA d'évaluer leurs capacités. Il faut alors faire la distinction entre une IA intégrée au jeu (comme les dresseurs que l'on peut rencontrer lors d'une aventure Pokémon) et une IA polyvalente comme Claude capable de générer du texte, résoudre des problèmes informatiques ou apprendre à jouer à Pokémon sans avoir accès au code du jeu.
L'IA qui se rêve maître Pokémon
Claude 3.7 Sonnet a été annoncée comme étant l'IA la plus puissante d'Anthropic à ce jour, dépassant de loin ses prédécesseures. Mais pour vérifier les performances de l'IA, Anthropic, comme toute entreprise développant des IA, passe par l'étape du benchmarking, ou test de performance. L'IA est ainsi évaluée sur plusieurs benchmarks traditionnels qui peuvent être de simples tests de logique ou de mathématiques, des questions réponses en plusieurs langues ou la résolution de problèmes complexes.
Là où d'Anthropic fait preuve d'originalité, c'est que l'entreprise teste également les différentes versions de Claude sur Pokémon rouge, premier jeu vidéo de la série sorti en 1996 sur Gameboy. L'entreprise peut ainsi mesurer les capacités de ses IA selon la progression de ses modèles dans le jeu. Cela donne ce graphique qui montre un réel progrès de Claude 3.7 Sonnet par rapport à sa version antérieure, Claude 3.5 Sonnet.

Claude 3.7 Sonnet est non seulement le premier modèle à remporter un badge d'arène mais il a réussi à en obtenir trois au total. Ses prédécesseures sont souvent restés bloqués dès le début du jeu, Claude 3.0 n'avait même pas réussi à quitter la maison de départ. À ce rythme, Claude a de grandes chances de finir le jeu et devenir maître de la ligue.
Dans son communiqué, Anthropic explique : "Pokémon est un moyen amusant d'apprécier les capacités de Claude 3.7 Sonnet, mais nous nous attendons à ce que ces performances aient un impact dans le monde réel, bien au-delà des jeux. La capacité du modèle à rester concentré et à atteindre des objectifs ouverts aidera les développeurs à créer une large gamme de modèles d'intelligence artificielle à la pointe de la technologie."
Les jeux vidéo comme test de performance
Cette initiative d'Anthropic reste un des rares benchmarks qui utilisent un jeu vidéo complexe comme Pokémon pour tester officiellement ses IA. Cette dernière est aujourd'hui destinée à devenir un assistant dans la création de jeux vidéo plutôt que de devenir un gamer. Cela n'a pas empêché certains passionnés d'informatique de tester de leur côté les IA sur différents jeux.
Un développeur du nom de Paul Craft avait testé plusieurs IA dans une compétition de Pictionary. Sur Techcrunch il expliquait: "L'idée est d'avoir un benchmark qui soit injouable. Un benchmark qui ne peut être battu en mémorisant des réponses spécifiques ou des schémas simples qui ont déjà été vus pendant la phase d'entraînement de l'IA."
Certains géants de la tech ont eux aussi lancé des projets de la sorte. En 2015, des ingénieurs de Google publiaient dans Nature leurs travaux sur une IA capable de jouer à plus de 49 jeux de la console Atari 2600. En 2016, Microsoft lançait le projet Malmo pour apprendre à l'IA à jouer à Minecraft. En 2019, bien avant la sortie de ChatGPT, l'IA d'OpenAI bâtait les champions du monde de Dota 2. Mais notre benchmark préféré, disponible en ligne, reste LLM Colosseum, l'émulateur qui fait s'affronter deux IA sur Street Fighter 3.