NotebookLM: l'outil IA de Google qui crée des podcasts bluffants de réalisme à partir d'un texte

NotebookLM facilite la gestion de multiples documents compilés - Google
Il n’y a pas besoin d’être un ingénieur spécialisé dans l’intelligence artificielle ou une tête pensante de la Silicon Valley pour développer des outils à l’IA. Dit comme cela, la phrase prête à sourire et l’on pourrait se dire que l’IA a donc déjà dépassé ses maîtres. Il n'en est encore rien. Mais fait assez rare, derrière NotebookLM, le service à l’IA développé par Google pour aider à la compilation de documents et données, se tient un écrivain passionné de technologie.
Steven Johnson n’a définitivement pas le profil auquel on s’attend et sa rencontre avec les équipes de Google tiendrait surtout de l’improbable. A l’été 2022, cet auteur d’une bonne douzaine d’ouvrages est approché par Clay Bavor, alors patron de Google Labs, et Josh Woodward. Ils avaient été impressionnés par un article écrit dans le New York Times Magazine sur "le potentiel des modèles de langage en tant que changement significatif pour les logiciels". Les deux hommes lui proposent de venir travailler à temps partiel "pour développer un nouvel outil de recherche basé sur l’IA".

"J’ai reçu un mail de Clay disant: 'vous ne me connaissez pas, mais j’aimerais beaucoup discuter avec vous. On a une petite équipe, quelques ingénieurs, un designer et des laboratoires consacrés à la création de prototypes'. Ça avait l’air d’être une excellente idée", s’amuse à raconter Steven Johnson à Tech&Co.
Un outil qui comprend sur quoi vous travaillez
De son inexpérience d’ingénieur au milieu d’ingénieurs, il tire finalement une force qui apporte beaucoup au projet: faire de l’IA un outil de recherche capable d’épauler l’utilisateur et surtout de le comprendre. "Nous ne voulions pas simplement que l’utilisateur discute avec une IA sur la base des connaissances générales de celle-ci. Nous voulions pouvoir dire : 'Voici les documents sur lesquels je travaille. Voici mon projet de recherche, mon business plan et un aperçu de mes concurrents'", résume-t-il. "Et le modèle répondrait ou commencerait à interagir en fonction des informations partagées, et pas seulement sur son type de connaissances."

Constatant que les modèles les plus brillants d’IA actuels ont une connaissance énorme, mais pas de compréhension du contexte de la demande ou de son enjeu lorsqu'ils doivent gérer des quantités monumentales d'infos, des documents de centaines de pages, d'images, d'entretiens à réécouter, il donne vie à NotebookLM avec pour mission d'épauler l'utilisateur.
Pour cela, l'outil doit être capable de faire la synthèse des recherches, accompagner les analyses et recouper les éléments, répondre à des questions aussi. Et ce, quel que soit le type de formats (PDF, audio, liens internet, Youtube, etc.). Des heures de travail gagnées et une "amélioration notable de la recherche, de l’écriture et du processus créatif", avance Steven Johnson.
Nous avons créé un outil qui permet de trouver les idées, comprendre ou avoir une vue d’ensemble à partir de vos propres matériels. Et parfois, cela aide même à concevoir quelque chose de nouveau", explique le créateur.
Lancé véritablement en mai 2024, NotebookLM a un fonctionnement qui convient parfaitement aux chercheurs, journalistes, écrivains, étudiants ou académiciens. Tout ce qui s’appuie sur de la recherche d’informations et nécessite d’établir des liens entre les données, de structurer des notes ou sa pensée pour en tirer des chronologies, des guides, des articles, des présentations, etc.
Un outil qui crée des podcasts minute plus vrais que nature
Mais là où l'outil s'avère encore plus bluffant, c'est sur sa capacité à créer des résumés audio à partir de documents parfois gigantesques. Grâce à l'arrivée de Gemini 1.5 et aujourd'hui Gemini 2.0, NotebookLM peut transformer les sources intégrées en conversation de type podcast afin de synthétiser le tout pour l'écouter n'importe où façon podcast.
"C’est un moyen puissant d’apprendre et de se souvenir des informations en écoutant deux personnes qui discutent du sujet", s’enthousiasme Steven Johnson. Et tout cela en à peine quelques minutes de conception, qu'importe la langue d’origine des documents. Mais là où NotebookLM se montre hautement performant, c'est dans la capacité à interrompre les deux "interlocuteurs virtuels" pour poser des questions via le menu et demander des compléments d’information. Ils adaptent alors leur discussion.

Jusqu’à présent, le rendu au format podcast n’était accessible qu’en anglais. A compter de ce 29 avril, NotebookLM propose Résume Audio en français. En revanche, il ne sera pas encore possible d’interrompre le podcast pour le faire évoluer.
Le français a tardé à arriver pour des questions de "véracité". "Ça marche très bien en anglais et c’est crédible, car c’est un véritable modèle audio conversationnel, pas des voix séparées", note Steven Johnson. Car le modèle IA a été entraîné sur la base de plus de 200 heures d’enregistrements en studio, avec deux personnes assises qui discutaient, pour comprendre les intonations, les réactions, la façon de se couper la parole aussi.
"Il nous fallait du français conversationnel pour obtenir une vraie version française", explique-t-il. "Chaque langue s’interrompt différemment. Dans chacune, la façon de signaler son accord ou désaccord dans la conversation est faite de sons différents. Si nous nous étions précipitées pour avoir le podcast en anglais, cela n’aurait pas eu la magie d’une conversation fluide et naturelle que nous souhaitions obtenir."