De ChatGPT à Bard: voilà à quoi ressemblent les bases de données utilisées pour former les IA

OpenAI ne divulgue pas les données sur lesquelles il se base pour former les modèles de ChatGPT. Difficile donc de percer le mystère des réponses qu’il fournit et de comprendre la manière dont les modèles d’IA se construisent. Mais pour tenter de donner une idée, le Washington Post a analysé l'ensemble de données de Google, baptisé C4 pour "Common Crawl's web crawl corpus".
Le C4 est une immense base de données regroupant 15 millions de sites web qui ont notamment été utilisés pour entraîner certaines IA comme T5 de Google et LLaMA de Facebook.
A noter, en amont, que le modèle GPT-3 de ChatGPT comprend 40 fois la quantité de données de C4. Les données de GPT-3 incluent également l'ensemble de Wikipédia en anglais, une collection de romans gratuits d'auteurs non publiés ou encore de nombreux liens Reddit.
Techniquement, pour mener son analyse, le Washington Post a travaillé avec des chercheurs de l'Allen Institute for AI et a classé les sites Web à l'aide des données de Similarweb, une société d'analyse Web. Ils ont ensuite classé les sites de manière thématique et fait apparaître les sites les plus utilisés.
Des sites d'extrême droite assez utilisés
Ainsi, les thématiques les plus récurrentes sont le business et l'industrie, suivis de la technologie puis des médias. Les trois sites les plus importants, toutes thématiques confondues sont Patents de Google (un moteur de recherche de brevets), Wikipedia et scribd.com (un site de partage de documents en ligne). La moitié des 10 sites les plus importants sont par ailleurs des organes de presse. Parmi eux, le New York Times ou The Guardian.

Mais ce qui est préoccupant ce sont les sites mentionnés un peu plus bas dans le classement, et à une place assez importante pour que ce soit souligné. Des sites comme Russia Today, affilié à l’Etat russe, Breitbart.com connu pour ses fausses informations et proche de l'extrême droite, ou encore Vdare, un site anti-immigration associé à l'idéologie de la suprématie blanche, sont utilisés.
4chan, connu pour son lien avec l'extrême droite, des sites proches de Qanon ou des sites complotistes sont également mentionnés dans le classement.
De cette manière, l'utilisation de ces sites pour entraîner et former des modèles l'IA pourraient les amener à propager de la désinformation et des théories complotistes, sans que l'utilisateur ne puisse remonter jusqu'à la source de l'information surtout avec l'opacité dont fait preuve ChatGPT.
Des filtres à améliorer
Des sites religieux sont également référencés. Parmi les 20 principaux sites religieux, 14 sont chrétiens, dont "Christianity Today qui a récemment écrit qu'il conseillait aux femmes de continuer à se soumettre aux pères et maris violents et d'éviter de les dénoncer aux autorités", note le Washington Post.
Pour éviter que les modèles d’IA ne fournissent des réponses truffées de propos obscènes, racistes et insultants, les Big Tech conçoivent des sortes de filtres pour améliorer la qualité des réponses. Par exemple, Google bloque ces types de contenus pour C4. Des filtres qui ont aussi des limites: C4 élimine certains contenus LGBTQ qui ne comportent aucune offense. Un mélange des genres, qui demande à être affiné.

Autre question soulevée, celle de la confidentialité des données. La technologie est la deuxième catégorie la plus récurrente. Les réseaux sociaux comme Facebook et Twitter restent flous sur la façon dont les informations personnelles des utilisateurs peuvent être utilisées pour former des modèles d'IA.
Données et droits d'auteur
Côté business, deux sites interpellent en ce qui concerne le respect des droits d'auteur. Kickstarter, un site de financement participatif, et patreon.com qui aide les créateurs à percevoir des revenus grâce à leurs abonnés.
Et c'est là que le bât blesse. Kickstarter et Patreon peuvent donner à l'IA un accès aux idées proposées par les entrepreneurs et les créateurs sur ces plateformes. Actuellement, ils ne reçoivent aucune compensation si leur travail est utilisé comme base.
La question des droits d'auteurs se pose également pour des générateurs d'images comme Stable Diffusion ou MidJourney. Certaines agences de presse ont également épinglé les entreprises technologiques pour avoir utilisé leur contenu sans autorisation.
Par ailleurs, Reddit, un site communautaire, vient de signaler son mécontentement, ce 18 avril. La plateforme est une mine d’or pour les modèles d’IA qui vont largement puiser ces ressources. Les sociétés voulant exploiter les conversations du site pour entraîner leurs systèmes d’IA devront désormais payer pour avoir accès aux API de Reddit.