Skyblogs, pages perso d'Orange: la BNF immortalise 6 milliards d'URL

Depuis plus de vingt ans, la Bibliothèque nationale de France (ou BnF) collecte les pages de l'internet français afin de conserver, comme elle le fait pour d'autres œuvres physiques ou non, une archive. L'an dernier, cela a permis d'atteindre les 2 pétaoctets (soit 2000 téraoctets) de données.
2023 a permis d'établir un record avec 6 milliards d'URL "moissonnées" par l'organisme dans le cadre de sa mission de conservation patrimoniale. Un chiffre atteint grâce, notamment, à l'arrêt de l'exploitation de deux plateformes emblématiques du début des années 2000: les Skyblogs et les pages perso d'Orange.
1,9 milliard d'URL collectées en urgence
Ces deux services représentent à eux seuls 1,9 milliard d'URL. Elles sont décrites comme "une matière exceptionnelle, tant pas son contenu que par son volume."
Ces collectes, précise la Bibliothèque nationale de France, avaient été réalisées "dans l'urgence", entre le 28 août et le 17 novembre pour Skyblog (avec 12,6 millions de blogs au total), et du 20 novembre et 7 décembre pour les pages personnelles d'Orange, soit 26 millions d'URL et près de 300 000 sites créés par les clients de l'opérateur, qui a coupé l'accès à son service le 9 janvier dernier.
Dans son communiqué, l'établissement public explique utiliser des logiciels d'archivage automatique, et se concentrer sur des collectes "ciblées", dans le but de compléter des thématiques et des spécialités à la fois sur le terrain national et international. Depuis l'an dernier, elle collecte également des contenus issus des réseaux sociaux, dont YouTube, Instagram, et même TikTok, mais aussi les podcasts.
En revanche, elle a aussi cessé d'archiver Twitter, devenu X, après les modifications opérées par Elon Musk, propriétaire de la plateforme, sur l'API du réseau social.
La BnF précise que l'année 2024 devrait se concentrer sur des contenus portants sur les Jeux olympiques et les élections européennes. Mais elle s'autorise d'autres collectes d'urgence pour être certaines d'enrichir sa base de données, riche de plusieurs milliards d'URL.