Tech&Co
Google

Gemini Live arrive en France: on a testé l'IA de Google qui parle (vraiment) comme un humain

placeholder video
INFO TECH&CO. À compter de ce jeudi 3 octobre, Google déploie Gemini Live, son interface vocale plus naturelle pour converser avec l’IA en français. Tech&Co a pu la tester en avance.

"Ma fille de 5 ans m’a demandé ce matin d’où venait le vent. Est-ce que tu pourrais m’aider à lui expliquer?" "Mais bien sûr! C’est comme un dragon qui cracherait du jeu au-dessus de la terre et toute la chaleur va monter, laissant l’air froid prendre la place…"

Cette discussion, c’est avec Gemini Live que nous l’avons eue. Après lui avoir demandé tout simplement une explication sur l’origine du vent, puis en lui demandant d’adapter ensuite sa réponse à une enfant ou un étudiant en physique.

Et à chaque fois, avec sa plus belle voix française, l’assistant vocal à l’IA générative de Google nous a donné une réponse fluide, rapide, nous laissant l’impression de discuter le plus naturellement du monde avec quelqu’un qui avait réponse à tout.

> Comment installer Gemini Live?

Tout est adapté pour le français

Voici donc l’arrivée dès ce jeudi 3 octobre de Gemini Live dans la langue de Molière, peu après son déploiement en anglais annoncé à l’arrivée des Pixel 9 et Pixel 9 Pro. Vous allez pouvoir choisir entre 10 voix différentes, cinq féminines et cinq masculines, des intonations et timbres différents.

Gemini Live se présente donc comme une extension gratuite de l'application Gemini (disponible ici). Pour le moment, cette dernière n'est disponible que sur Android. En lançant Gemini, vous verrez désormais apparaître une petite icône en bas à droite pour interagir avec l’agent conversationnel. Et la différence se fait immédiatement sentir.

Gemini Live sur smartphone
Gemini Live sur smartphone © Tech&Co

Vous pouvez poser vos questions le plus naturellement du monde à Gemini Live. Il sait comprendre. Vous pouvez interrompre ses réponses, le relancer, rebondir sur ses remarques. Il se montre réactif et a toujours une solution à vos interrogations culturelles, sur une info, vos questions météo, mais aussi la préparation de vos vacances, votre demande de conseil sur un sujet ou bien pour vous préparer à un entretien d’embauche en vous posant des questions potentielles. 

Gemini Live parle comme vous lui parlez. Si vous le tutoyez, il vous tutoie. Si vous le vouvoyez, il vous vouvoie. Selon la personnalité dynamique ou impliquée que vous lui aurez choisie, son ton de voix, son rythme et le style de ses réponses s’adapteront.

"Le modèle de base est multilingue et optimisé pour les langues qu’on présente aux utilisateurs. Tout est adapté pour le français: la reconnaissance vocale, le modèle, les réponses qu’il produit et évidemment les voix", explique à Tech&Co Françoise Beaufays, chercheuse chez Google en charge de l’apprentissage automatique pour les modèles de voix.

"Vous pourrez aussi utiliser jusqu’à deux langues, parler naturellement et passer de l’une à l’autre" explique-t-elle.

Discuter comme avec un ami qui aurait réponse à tout

"Depuis 30 ans, il y a ce mythe de l’assistant qui pourra tout faire et auquel on peut parler", rappelle la scientifique qui oeuvre pour Google depuis 19 ans sur les assistants vocaux. "Longtemps, il fallait utiliser des phrases assez spécifiques sinon l’assistant ne comprenait pas. Désormais, on peut s’exprimer librement et le modèle comprend. Sa logique intérieure est un peu plus sophistiquée et on engage une vraie conversation."

Et pour cela, à une époque où nos mains sont souvent occupées par des appareils, le volant en voiture ou autre, l’assistant vocal est amené à devenir un véritable allié pour donner toutes les réponses dont on a besoin, à tout moment.

On s’est longtemps moqué des voix des Siri, Google Assistant et autre Alexa, même si l’égérie d’Amazon était la plus naturelle du lot, celle qui connaissait les interactions les plus polies de fait. Le travail sur la voix de Gemini Live a donc été appuyé pour s’assurer que l’utilisateur trouve celle qui lui plaise à l’oreille, ni trop stridente ni trop molle. 

"Il y a des utilisateurs qui nous disent: 'Moi, je veux avoir une voix rassurante, qui parle de manière assez régulière'.  D’autres, parmi les jeunes en particulier, qui veulent 'une voix plus rapide, plus énergique.' Donc ça dépend vraiment de choix personnels", ajoute Françoise Beaufays.

De plus en plus rapide dans son apprentissage

Gemini Live ne peut pas encore prendre en compte des documents, fichiers, photos ou autres comme Gemini en version écrite. Pour le moment, nous glisse-t-on du côté de Google. Il semble en effet peu probable que cela n’arrive pas très vite. L’interface vocale se base sur les mêmes données sources que Gemini. Si vos paroles ne s’affichent pas en temps réel à l’écran façon dictée vocale, pas plus que celle de votre interlocuteur virtuel, un rapport écrit est disponible par la suite en synthèse de la discussion. Vous pourrez même appuyer sur le logo Google (un G) pour obtenir les sources de la réponse de Gemini Live et aller éventuellement plus loin.

Votre discussion est disponible ensuite sous forme de retranscription des questions et réponses
Votre discussion est disponible ensuite sous forme de retranscription des questions et réponses © Tech&Co

À une époque où tout va de plus en plus vite, Gemini Live se nourrit tel un ogre de ses expériences et des évolutions technologiques. "Ça va beaucoup plus vite qu’autrefois, parce qu’avant il y avait énormément de règles qui devaient être écrites à la main, des grammaires, avec des équipes de linguistes qui s’en occupaient," se rappelle Françoise Baufays. "Maintenant avec le modèle, c’est plus une question d’avoir les données nécessaires pour l’entraîner. Il y a pas mal de boulot, mais on peut réutiliser dès qu’on a un nouveau modèle. Autrefois, il fallait recommencer à zéro à chaque fois."

Restent les questions éthiques. Quand on demande à Françoise Baufays si l’on pourra un jour intégrer la voix que l’on veut à Gemini Live ou s’il y a encore un moyen de différencier une voix de synthèse d’une voix humaine, elle tient à rassurer. Il y a bien encore des garde-fous.

"Technologiquement, ça peut se faire, mais il y a des questions d’éthique", assure-t-elle. "On a des méthodes assez puissantes pour identifier une vraie voix, d’une voix synthétique. Et comme toutes les méthodes de sécurité, ça fonctionne jusqu’à un certain point toléré. Par exemple, Gemini Live, programmatiquement, ne permet pas à d’autres voix d’être utilisées."

Gemini Live est disponible gratuitement sur tous les smartphones Android. Le déploiement se fait progressivement sur plusieurs jours. Gemini Live sera prochainement disponible aussi sur iOS.

Melinda Davan-Soulas