Des contenus "mal écrits et sans source": comment Wikipédia tente de combattre les articles générés par IA

C'est tout un travail de fourmis. Depuis plusieurs mois, la célèbre encyclopédie collaborative Wikipédia fait face à un afflux de contenus générés par intelligence artificielle. Sans surprise, ces informations sont souvent fausses, ou fallacieuses.
Pour contrer ce phénomène, les Wikipédiens, les bénévoles qui alimentent et régulent l'encyclopédie en ligne, se mobilisent. Comme le relève The Verge, c'est le projet WikiProject AI Cleanup. Leur objectif ? Lutter contre le "problème croissant des contenus générés par IA, mal écrits et sans source". Marshall Miller, directeur produit de la Fondation Wikimedia, compare même cette mobilisation à une sorte de réponse du "système immunitaire".
"Ils (les bénévoles, NDLR) veillent à ce que le contenu reste neutre et fiable", explique-t-il. "À mesure que l'internet évolue et que des technologies telles que l'IA apparaissent, le système immunitaire s'adapte à ce nouveau défi et trouve des moyens de le relever."
S'adapter au nouveau défi de l'IA
Pour éviter que les contenus IA prolifèrent, les bénévoles traquent les faux sites d'informations créés par IA qui publient des articles plagiés ou inventés et qui sont cités comme des sources dans certaines pages. Au total, près de 150 faux sites ont été identifiés dans les sources du Wikipédia. Dans le détail, "105 ont recours à de l’IA pour la rédaction des textes, 65 recourent au plagiat (avec ou sans traduction, avec ou sans reformulation par IA)", précise la communauté dans une note.
Ils tentent également de supprimer les articles rédigés par une IA au plus vite. Pour cela, Wikipédia a adapté ses règles. D'ordinaire, les articles signalés pour suppression sur le site font l'objet d'une période de discussion de sept jours au cours de laquelle les membres de la communauté déterminent si le site doit supprimer l'article. La nouvelle règle permet aux administrateurs de contourner ces discussions si un article est clairement généré par une IA et n'a pas été révisé par la personne qui l'a soumis.
Pour les repérer, plusieurs indices mettent la puce à l'oreille. Car ces articles sont souvent très mal rédigés. Par exemple, ils citent des références incorrectes à des auteurs ou à des publications ou comportent des liens renvoyant vers des sites inexistants. Quelques phrases comme "voici votre article Wikipédia" peuvent être présentes dans ces articles. Il existe également des expressions ou des caractéristiques de mise en forme que l'on retrouve généralement dans les articles rédigés par des chatbots. Cette liste inclut l'utilisation excessive des tirets associés aux chatbots, de certaines conjonctions, comme "d'ailleurs", ainsi que des expressions promotionnelles, telles que "à couper le souffle".
Une arme "à double tranchant"
Mais la politique autour de l'IA au sein de Wikipédia n'a pas toujours été aussi claire. En juin dernier, la Fondation Wikimedia, qui héberge l'encyclopédie mais ne participe pas à l'élaboration des politiques du site web, a proposé à certains contributeurs de tester des outils d'IA génératives pour rédiger des articles. Des résumés générés par IA ont ainsi été placés en tête des articles.
Un concept loin de séduire les Wikipédiens. La communauté a pointé les risques de désinformation liés aux hallucinations des IA ainsi que les problèmes de lisibilité entre des contenus générés par la machine et ceux issus d’un travail humain. Si bien que le test a été suspendu.
"C'est une arme à double tranchant", rappelle Marshall Miller. "L'IA permet aux gens de générer des contenus de moindre qualité en plus grande quantité, mais elle peut aussi être un outil pour aider les bénévoles à faire leur travail, si nous l'utilisons correctement."
Ainsi, la Fondation Wikimédia envisage d'utiliser l'IA pour aider les éditeurs dans les tâches répétitives et la traduction.