"Pas un énorme danger": comment les Français de Wikipédia gèrent l'arrivée de ChatGPT

Les intelligences artificielles génératives rédigeront-elles à terme leur propre page Wikipédia? Des internautes ont déjà repéré des utilisations "sauvages" de ChatGPT pour générer des séries d’articles sur l’encyclopédie participative. Interrogée par Tech&Co, la présidente de l’association Wikimédia France affirme qu’il est pour l’instant facile de les détecter.
"ChatGPT est un outil d’aide aux vandales, mais utilisé de façon brute, ce n’est pas un énorme danger pour nous", assure Capucine-Marin Dubroca Voisin.
"On repère assez bien ce qui a été fait avec ChatGPT - car ce sont des modifications qui n’ont pas de sources - et on est capable de les enlever."
Les "hallucinations", un problème persistant
La présidente du "chapitre" français reconnu par Wikipédia se dit ouverte au recours à l’IA pour alimenter le site, mais écarte ChatGPT. "En fait, ChatGPT est très bon pour simuler du langage humain, même si pas encore parfait notamment car il a été entraîné sur Wikipédia, et qu’on a un type de langage spécifique, un peu froid, qui vise à être neutre", explique-t-elle. "Mais il est incapable de reproduire ce dont on a besoin, c’est-à-dire citer des sources de façon fiable. Donc, cela peut être des IA génératives qui nous aident à faire ça, mais pas forcément dans le style de ChatGPT."
Surtout, elle note que le chatbot développé par OpenAI a encore tendance à "inventer des informations".
"Toute IA qui devra travailler pour Wikipédia devra se baser sur un modèle qui ne permet pas les hallucinations", c’est-à-dire la fabrication de faits", insiste-t-elle.
Diversifier le contenu
Le fondateur de l’encyclopédie participative, Jimmy Wales, estimait le mois dernier que Wikipédia pourrait avoir recours à l’IA pour différents usages, comme repérer les doublons et les déclarations contradictoires, ou identifier les angles morts et les biais dans la couverture de l’information.
L’utilisation de l’IA dans ce cadre n’est pas nouveau, rappelle la responsable de Wikimédia France: "Il y a quelques années, une entreprise avait créé une IA pour générer des biographies de femmes notamment pour la version de Wikipédia en anglais. On a aussi des contributeurs qui codent la génération de biographies, comme Roland45 qui a créé un script pour générer un millier de biographies de femmes scientifiques de façon semi-automatique, qu'on a relu ensuite manuellement."
Plus récemment, le projet les Sans PagEs, vise à réduire le biais de genre sur Wikipédia en français, où "entre 90 et 100%" des personnes citées dans les articles sur les grands sujets comme la philosophie, les sciences ou l’histoire, sont des hommes, et où plus de 80% des biographies sont masculines, ce qui correspond au profil de la majorité des volontaires qui alimentent l’encyclopédie collaborative.
La wikipédienne évoque également la possibilité de recourir à l’IA pour "comparer les différentes versions linguistiques de Wikipédia" afin d’ajouter des faits manquants dans certaines. A noter que des outils existent déjà pour repérer ces variations, comme WikiData, la base qui organise toutes les données de Wikipédia.
Attribution & partage équivalent
On l’a vu, les IA génératives utilisent de façon massive des contenus issus de Wikipédia pour générer leurs réponses. Cet usage est autorisé car les articles de l’encyclopédie en ligne sont couverts par la licence Creative Commons (BY-SA) qui autorise la libre reproduction, diffusion et modification des contenus, explique Capucine-Marin Dubroca Voisin. Mais cette licence fonctionne sous deux conditions:
1- l’attribution, c’est-à-dire indiquer l’auteur et la source (ce qui n’est pour l’instant pas le cas avec ChatGPT);
2- le partage dans des conditions équivalentes. Ce dernier point est sujet à débat, alors que la question de la paternité d’une image ou d’un texte fabriqué par une IA n’a pas été tranchée.
Plus largement, le concept du "fair use", ou "usage loyal", qui existe aux Etats-Unis, fait que tous les éléments du web y compris ceux protégés par des droits d’auteur pourraient en théorie être collectés pour entraîner une IA, rappelle le site dans un article relayé par Numerama.
Information évolutive
Mais les IA génératives pourraient aussi affecter le coeur du modèle wikipédien, dont la fiabilité et la pertinence reposent sur une armée de contributeurs bénévoles qui éditent et renouvellent ses pages en permanence. Si l’information est accessible en une simple question à un chatbot, "sans traçabilité, sans possibilité de la modifier", "on a le risque d’une information descendante, qui ne soit plus gérée par une communauté", avance la présidente de Wikimédia France.
"Le problème, ce n’est pas que notre information soit réutilisée", affirme-t-elle. "C’est qu’on n'ait plus la possibilité de la modifier ou de l’améliorer."