Intelligence artificielle: pourquoi la question de l'open source est déterminante

Meta, Mistral et Deepseek d'un côté, OpenAI, Microsoft et Google de l'autre. Dans le secteur de l'intelligence artificielle, deux mondes s'opposent: l'IA open source et l'IA à source fermée. Une bataille qui a beaucoup fait parler d'elle lors du sommet pour l'action sur l'IA à Paris, qui s'est conclu ce mardi 11 février par un accord entre 58 pays, dont la France, pour une IA "ouverte", "inclusive" et "éthique".
Mais, avant même cet accord, la startup chinoise Deepseek avait braqué les projecteurs sur l'open source, en dévoilant une IA aussi performante que ChatGPT, mais dont l'entraînement a coûté beaucoup moins cher. Car c'est l'un des avantages de l'approche dite "open source", que l'on peut traduire par "source ouverte". Le développement de ces systèmes est moins coûteux que ceux dits "propriétaires", comme ChatGPT.
"Le futur de l'IA"
Pour faire simple, l'open source consiste à rendre le code de programmation d'un modèle d'IA accessible gratuitement à tous, permettant ainsi à chacun de le consulter et de le modifier pour créer leurs propres outils.
"Le futur de l'IA sera basé sur des plateformes open source. C'est-à-dire utilisables gratuitement, téléchargeables et customisables (personnalisables, NDLR) pour des applications par des entreprises, des ONG, des gouvernements, etc", a affirmé Yann Le Cun, directeur scientifique pour l'IA chez Meta, à la tête du grand laboratoire FAIR (Facebook Artificial Intelligence Research) dans la capitale, sur BFM Business.
Meta milite en effet pour l'open source dans le domaine de l'intelligence artificielle, ayant distribué son premier modèle ouvert, Llama 2, à l'été 2023. "Ça a contribué à créer un écosystème de l'industrie de l'IA basé sur ces modèles open source (famille de modèles appelé Llama, NDLR). Une grande partie des startups en France et partout dans le monde est basée sur Llama", a expliqué Yann Le Cun. Autrement dit, ils sont ce qu'on appelle des "modèles de fondation".
Pour lui, la force de l'open source, "c'est que personne n'a un monopole des bonnes idées et personne n'est significativement en avance sur les autres".
Cela, car cette approche permet d'avoir des contributions qui viennent du monde entier et non d'une seule et même entreprise.
Comme l'indique le directeur scientifique de l'IA chez Meta, Deepseek a publié un article expliquant toutes les techniques employées pour développer son IA, permettant à l'entreprise américaine de les reproduire "dans l'espace de quelques semaines (...) et donc [de] contribuer au progrès du domaine au niveau mondial".
Outre cet avantage, l'open source est aussi un moyen de faire utiliser moins de ressources. "L'open source, en permettant la réutilisation des modèles va également éviter de devoir repartir de zéro et donc, de consommer des millions d'heures de calcul, des quantités d'électricité énormes à chaque fois qu'on veut faire un nouveau modèle", avance Stéfane Fermigier, coprésident du Conseil national du logiciel libre (CNLL), auprès de Tech&Co.
Une question de transparence
Si des sociétés assurent adopter une démarche open source, certaines ne le sont pas vraiment. Car, cette approche implique non seulement de faire preuve de transparence concernant le code de programmation, mais aussi par rapport aux données d'entraînement. Dans le cas de Deepseek par exemple, on ne sait pas avec quelles données l'IA a été formée.
D'après Stéfane Fermigier, "très peu de modèles" sont en réalité open source dans le sens de la définition établie par l'Open Source Initiative, organisation dévouée à la promotion des logiciels libres fondée en 1998.
Selon celle-ci, un système d'IA est ouvert s'il est possible de l'utiliser "dans n'importe quel but et sans avoir à en demander la permission" et "d'étudier [son] fonctionnement et d'inspecter ses composants". Il faut aussi qu'il soit possible de le modifier "dans n'importe quel but, y compris pour changer ses résultats" et de le partager "pour que d'autres puissent l'utiliser, avec ou sans modifications dans n'importe quel but".
Ainsi, pour le coprésident du CNLL, "seuls les modèles qui répondent à l'Open Source AI Definition peuvent prétendre être vraiment transparents et notamment, en termes d'origine des données qui auraient été utilisées pour entraîner le modèle".
Il estime que la transparence est vraiment fondamentale car cela peut expliquer certaines des réponses données par un modèle. "Si j'entraîne mon modèle sur le forum des fachos américains ou des fachos français, j'aurais des réponses racistes. Si je l'entraîne sur des données féministes, j'aurais des réponses féministes...", souligne Stéfane Fermigier.
Une approche en évolution chez OpenAI
Contrairement à Mistral, Meta ou encore Deepseek, OpenAI opte actuellement pour des modèles propriétaires. Autrement dit, la startup ne partage pas le code de programmation de ChatGPT et de ses autres outils. À ses débuts, en 2015, elle avait pourtant adopté une approche open source, d'où le mot "open" dans son nom. Mais, elle a changé d'avis en 2023, indiquant que cette approche n'était pas la bonne pour des raisons de sécurité et de concurrence.
"Nous nous sommes trompés. Si vous pensez, comme nous, qu'à un moment donné, l'IA va être extrêmement, incroyablement puissante, alors cela n'a tout simplement pas de sens d'ouvrir le code source. C'est une mauvaise idée", avait déclaré Ilya Sutskever, cofondateur d'OpenAI qui a depuis quitté ses fonctions.
Des risques qui sont aussi mentionnés par la Commission nationale de l'informatique et des libertés (Cnil) dans une note d'analyse sur "les pratiques open source en intelligence artificielle".
"Premièrement, la contribution libre aux poids du modèle introduit une voie d'accès pour des attaquants, cherchant à empoisonner les modèles et à y introduire des portes dérobées (...) Deuxièmement, la diffusion en OS présente par nature le risque que les failles du modèle, rendues apparentes, soient exploitées par des attaquants", met en garde l'autorité.
Mais, pour Stéfane Fermigier, les dangers de l'intelligence artificielle sont inhérents à celle-ci. Autrement dit, "ce n'est pas le fait d'être open source ou de ne pas être open source qui changera grand-chose". "Il a été reconnu par des spécialistes de la sécurité informatique que ce qu'on appelle la sécurité par l'obscurité ne marche pas", a ajouté le coprésident du CNLL.
Malgré les dangers mis en avant pour justifier son changement en 2023, OpenAI pourrait à nouveau se tourner vers l'open source. Fin janvier, lors d'une session de questions-réponses sur Reddit, son patron Sam Altman, a admis que son entreprise était du "mauvais côté de l'histoire" car son modèle d'IA n'est pas open source. "Nous devons trouver une stratégie différente en matière d'open source", avait-il affirmé.
Critiqué par Elon Musk à ce sujet, il a une nouvelle fois assuré que sa société devrait être plus ouverte au Grand Palais, à l'occasion du sommet pour l'action sur l'IA. Reste à voir ce qu'impliquera cette "ouverture" pour le créateur de ChatGPT.