Tech&Co Intelligence artificielle
Intelligence artificielle

IA : Pourquoi les prochains modèles en français devraient être plus performants... grâce à la BNF

placeholder video
Un groupe de start-ups françaises est en train de négocier un accès aux banques de données de l'INA et de la BNF. Une véritable mine d'or pour les grands modèles de langage.

La France est plus que jamais dans la course au développement des intelligences artificielles (IA). Si la pépite du secteur, Mistral AI, est valorisée à six milliards d'euros, la France souhaite voir émerger plus de champions de ce type.

Selon des informations de Politico, un groupe de startup françaises, dont Mistral AI, est en train de négocier un accès aux données publiques de l'Institut national de l'audiovisuel (INA) et de la Bibliothèque nationale de France (BNF).

Ces deux institutions seraient une véritable mine d'or pour les grands modèles de langage (LLM) dont sont dotés les IA. Pour rappel, ces dernières fonctionnent en analysant un vaste ensemble de données de manière automatique pour les comprendre et répondre aux requêtes textuelles des utilisateurs.

Trois startup phares se dégagent du groupe: Mistral AI mais aussi Giskard et Artefact. Toutes les trois ont remporté un récent appel à projets lancé par Bpifrance, comme le rappelle Politico.

Stratégie franco-française

"Nous nous entraînons sur le domaine public, mais des synergies peuvent être trouvées, comme on le voit avec Giskard, Artefact, la BNF", s'est félicité Arthur Mensch, le cofondateur de Mistral AI, lors de l’événement d'anniversaire d'Artefact.

"Il est important de pouvoir s’appuyer sur la connaissance française, de prendre en compte la culture française pour customiser nos modèles" souligne-t-il.

Une stratégie franco-française qui tend à se développer pour l'Europe, notamment avec l'IA Act. "La priorité et la nécessité vitale, c'est que nous puissions développer en Europe [...] nos propres modèles [...] qui seront empreints de notre vision de l'homme et du monde, qui sont forgés au feu des langues et des cultures de l'Union européenne", avait déclaré en novembre l'ancien ministre Jean-Noël Barrot.

Le partenariat avec la BNF et l'INA permettra d'éviter les contentieux liés au droit d'auteur. La BNF dispose en effet de millions de documents dans le domaine public, représentant des centaines de millions de pages numérisées. De quoi permettre à Mistral d'enrichir son modèle avec des œuvres littéraires classiques. Cependant, un responsable de la BNF prévient auprès de Politico: "C'est open source, mais pas open bar".

Quant à l'INA, la situation est plus complexe, avec peu de contenus dans le domaine public parmi ses 25 millions d'heures d'archives audiovisuelles. Des clarifications juridiques avec les ayants droit seront nécessaires, même si aucun calendrier n'est fixé pour l'instant.

Willem Gay