BFM Tech

Reconnaissance vocale : Microsoft crée une IA aussi précise que les humains

-

- - Microsoft

L’intelligence artificielle des chercheurs de Microsoft obtient le même taux de réussite pour reconnaître les mots prononcés à haute voix que les humains. Une réussite historique, d'après la firme.

Avec Siri, Cortana et Google, parler à son smartphone est devenu une pratique courante. Mais encore faut-il que le logiciel déchiffre correctement les phrases émises par l’utilisateur, ce qui implique d’avoir un système de reconnaissance vocale performant. Les chercheurs de Microsoft se sont penchés sur le problème et viennent d’annoncer une nouvelle technologie... aussi efficace qu’un être humain. "Nous avons atteint la parité avec les humains. C’est un exploit historique" a précisé Xuedong Huang, le chef de l’équipe dédiée à la parole.

Avec cette technologie qui utilise les (très à la mode) réseaux neuronaux convolutifs, Microsoft annonce un taux d’erreur de reconnaissance des mots de 5,9%, le même score que celui obtenu par un traducteur humain, qui, contrairement à ce que l'on peut imaginer, n'est pas parfait ! Car l'on n’entend pas toujours le même mot que celui prononcé par son interlocuteur.

Notons qu’il y a un mois, les chercheurs avaient obtenu un taux de 6,3%, ce qui constituait déjà un excellent score. En revanche, la performance a été réalisée dans un environnement silencieux : les résultats sont forcément moins bons dans des conditions plus réalistes, où parfois l’écoute est perturbée par les bruits ambiants ou par plusieurs personnes qui parlent en même temps.

Profiter de la puissance des processeurs graphiques

Les chercheurs de Microsoft ont utilisé leur kit logiciel open source, baptisé Computational Network Toolkit, qui tire parti de la puissance de calcul des processeurs graphiques, les mêmes que ceux que l'on retrouve notamment dans les cartes 3D. Le principe de base consiste à "nourrir" l’intelligence artificielle avec une grande quantité de données pour la rendre de plus en plus incollable. En simplifiant à l'extrême, la performance de Microsoft est liée selon ses chercheurs à l'emploi combiné des plus récentes technologies de réseaux neuronaux.

La firme entend avec cette annonce montrer qu'elle reste dans la course face à Facebook ou Google, qui n'ont de cesse de travailler à des technologies similaires pour améliorer ou développer de nouveaux services (bots et assistants intelligents, analyse d'images, robotique...)

Microsoft envisage d'ailleurs de mettre en œuvre cette nouvelle technologie dans Cortana, l’assistant vocal de Windows 10 et de la console de jeu Xbox One. Mais attention : il y a une différence fondamentale entre bien entendre et bien comprendre. La prochaine étape est de faire en sorte que la machine soit en mesure d'analyser et de déchiffrer à la perfection les phrases prononcées par l’utilisateur, ce qui requiert encore plus d’intelligence … artificielle. "Nous quittons un monde où les gens doivent comprendre les ordinateurs pour un monde où ce sont les ordinateurs qui comprendront les gens" a indiqué Harry Shum, vice-président de Microsoft en charge de la recherche et de l'intelligence artificielle.