Tech&Co
Tech

Gallica fête ses 25 ans: que trouve-t-on sur la bibliothèque en ligne aux 10 millions de documents?

placeholder video
Pour son 25e anniversaire, le vétéran des archives en accès libre et gratuit a mis en ligne son 10 millionième document. Et planche sur des moyens d’améliorer la recherche à travers son colossal catalogue.

Bien connue des historiens, généalogistes et étudiants qui y ont recours, la bibliothèque numérique Gallica fête aujourd’hui son quart de siècle. Conçue comme un répertoire en ligne des collections de la Bibliothèque nationale de France et ses partenaires, le site vient d’atteindre le palier des 10 millions de documents hébergés.

Livres, journaux et revues, mais également manuscrits, cartes, plans, estampes, photographies, partitions, vidéos, enregistrements sonores et objets… Un immense gisement documentaire a été progressivement numérisé depuis les années 1990. Pour les chercheurs, c'est une véritable mine d'or où ils peuvent tout trouver ou presque comme une édition originale d'Alice au pays des merveilles illustrée par Lewis Carroll, des enregistrements de chants de marins japonais dans les années 1930, ou encore la toute première carte du royaume de France.

Si ces archives sont accessibles gratuitement et sans restriction au million de visiteurs mensuels de la plateforme, les explorer n’est pas mince affaire.

L'aiguille dans la botte de foin

Pour y remédier, Gallica a notamment lancé l’outil GallicaPix en 2021, afin de rechercher plus efficacement à travers son catalogue d’images aux identifications parfois incomplètes. "En s’appuyant sur des techniques d’intelligence artificielle de reconnaissance visuelle et d’apprentissage profond", GallicaPix sert à effectuer des recherches "au sein de corpus d’images largement inexploités jusque-là, comme les photographies ou les dessins publiés dans la presse, les illustrations présentes dans les livres ou les manuscrits…" précise la BnF sur son site.

Le site travaille aussi sur le projet GallicaSnoop qui se penche sur la fouille d’images, en partenariat avec l’Institut national de recherche en sciences et technologies du numérique (Inria) et l’Institut national de l’audiovisuel. Le but: repérer des personnes ou objets spécifiques dans des images en estimant les similarités visuelles. Et la BnF de citer plusieurs applications pratiques possibles, comme "retrouver dans la presse des années 1930 les images représentant des femmes à bicyclette, localiser les singes qui peuplent les marges des manuscrits médiévaux enluminés, [ou] recenser les différents véhicules inventés pour marcher sur l’eau".

"C’est sur ce même moteur que s’appuie par exemple l’application Pl@ntnet, qui permet aux apprentis botanistes d’identifier les plantes qu’ils prennent en photo", explique sur le site de la bibliothèque Jean-Philippe Moreux, qui accompagne les projets d’intelligence artificielle.

Mais le chantier de la numérisation lui-même est loin d’être terminé : plus de 40 millions de documents divers dormiraient encore dans les magasins physiques de la BnF.

Lucie Lequier