Tech&Co Intelligence artificielle
Intelligence artificielle

Transcription, traduction, résumé... Mistral lance des modèles d'IA centrés sur l'audio

placeholder video
En plus de ces capacités, le premier modèle, baptisé Voxtral, sera bientôt capable de reconnaître les caractéristiques des interlocuteurs, comme leur âge ou leur sexe, et leurs émotions.

Mistral, start-up française d'intelligence artificielle (IA), a lancé mardi ses premiers modèles centrés sur la reconnaissance vocale et la transcription dans plusieurs langues.

"La voix sera cruciale dans l'avenir des interactions homme-machine et jouera un rôle critique dans l'adoption de l'intelligence artificielle", a expliqué à l'AFP l'entreprise.

Ce modèle en source ouverte, baptisé Voxtral, permet ainsi de transcrire des contenus audio, en direct ou à partir de fichiers importés, en plusieurs langues allant de l'anglais au hindi, reconnues automatiquement.

Il peut aussi faire des résumés, répondre à des requêtes posées à l'oral et Mistral compte ajouter prochainement d'autres fonctionnalités comme la reconnaissance de plusieurs interlocuteurs et de leurs caractéristiques (âge, sexe) mais aussi de leurs émotions, selon un communiqué.

Améliorer les systèmes vocaux d'entreprises

Voxtral peut notamment servir à améliorer les systèmes vocaux d'entreprises pour répondre à leurs clients par téléphone, selon la start-up. La société française développe par ailleurs avec le constructeur automobile Stellantis un système permettant aux conducteurs d'interagir à l'oral avec un assistant IA embarqué dans leur véhicule.

Le mastodonte américain OpenAI a de son côté présenté dès l'année dernière, un mode vocal pour son modèle GPT-4o, capable de "raisonner" en temps réel via l'audio, la vision et le texte. Cette version de ChatGPT peut notamment lire les émotions des utilisateurs sur les visages via la caméra d'un smartphone.

Le laboratoire français de recherche en intelligence artificielle Kyutai, fondé par Xavier Niel, propriétaire du groupe Iliad, et Rodolphe Saadé, PDG du transporteur maritime CMA CGM, a lui dévoilé en février un modèle de traduction simultanée. Baptisée "Hibiki" ("écho" en japonais), cette IA traduit les propos d'un utilisateur en temps réel du français vers l'anglais, comme le ferait un interprète.

K.D. avec AFP