Tech&Co Intelligence artificielle
Intelligence artificielle

"Red teams": comment OpenAI s'est assuré que ChatGPT agent ne devienne pas malveillant

placeholder video
Avant la sortie de ChatGPT agent, OpenAI a fait appel à plusieurs "red teams" pour évaluer sa dangerosité. Une pratique qui se démocratise pour éviter que les IA n'aident à concevoir des armes chimiques ou logicielles.

"2,5 milliards de requêtes d'utilisateurs par jour." ChatGPT devient progressivement une alternative privilégiée aux moteurs de recherche traditionnels. Conscient de son succès, OpenAI veut conserver sa place de leader dans le secteur de l'IA, tout en évitant que ChatGPT ne servent des usages potentiellement malveillants.

Le 17 juillet 2025, OpenAI a lancé son mode "agent", une fonction polyvalente de ChatGPT qui permet de conduire des recherches approfondies, tout en permettant à l'IA d'interagir avec les pages Web pour passer une commande par exemple. Cette fonctionnalité est notamment utile pour réaliser plusieurs tâches complexes en même temps.

Mais, pour s'assurer de la fiabilité du modèle agent et de l'absence de faille, l'entreprise a fait appel à des "red teams" (ou équipes rouges). OpenAI a publié un rapport détaillant comment elle a testé sa dernière IA, avant sa sortie.

Les "red teams", garants d'une IA sécurisée

Dans le secteur de l'IA, les red teams sont des volontaires en charge de pousser l'algorithme dans ses retranchements, pour voir sous quelles conditions il peut devenir dangereux. Ces "teamers" jouent le rôle d'acteurs malveillants, qui voudraient utiliser l'IA comme guide pour concevoir des bombes artisanales, des produits toxiques ou des virus informatiques par exemple.

OpenAI veut ainsi s'assurer que son chatbot ne devienne pas complice d'acte criminel, de la même manière qu'il est compliqué de trouver comment construire une arme chimique grâce à une recherche Google. Pour cela, les membres de red teams ont pour objectif de "jailbreaker" l'IA, autrement dit de passer outre les garde-fous pour que le chatbot fournisse des informations qui lui sont normalement interdites de transmettre.

Ces tests menés par les red teams ne sont pas anodins. Par le passé, OpenAI a constaté à plusieurs reprises des failles permettant de débrider son IA. En janvier 2025, une faille, appelée "Time Bandit", permettait de demander presque n'importe quoi à ChatGPT en lui faisant croire qu'il était dans le passé.

En avril dernier, OpenAI a été obligé de renforcer ses derniers modèles après la découverte d'une faille majeure. "Nos évaluations ont montré que l'OpenAI o3 et o4-mini peuvent aider les experts à planifier la reproduction d'une menace biologique connue", affirmait un rapport de l'entreprise.

Agent soumis à des tests intensifs

Pour mener à bien ces lourdes opérations de test, OpenAI a réuni plusieurs équipes rouges.

Pour la première équipe, l'entreprise a fait appel à seize experts, tous titulaires d'un doctorat en biologie. Ils ont dû converser avec le chatbot, et l'inciter à donner des informations pour concevoir une arme biologique. Ils ont réussi à identifier 179 bouts de discussions lors desquelles ChatGPT agent générait des réponses plus ou moins risquées. 16 de ces réponses ont dépassé le seuil de dangerosité imposé par OpenAI.

Une deuxième équipe était constituée de novices en biologie. Ces derniers ont dû réaliser deux quiz, un avec l'aide de ChatGPT agent, l'autre avec un moteur de recherche classique. Chaque quiz contenait plusieurs questions qui portaient sur l'élaboration d'un agent biologique dangereux: soit l'abrine (une molécule extrêmement toxique), soit la maladie du charbon.

À l'issue de ce test, on constate que, pour la molécule d'abrine, un simple moteur de recherche permet en moyenne de répondre à 44,7% des questions, contre 50,5% avec l'aide de ChatGPT agent. Pour la maladie du charbon, l'utilisation d'un moteur de recherche donne 37,8% de réponses correctes, contre 36,9% avec la fonction agent. Conclusion, presqu'autant de réponses dangereuses peuvent être relayées par ChatGPT agent, qu'être trouvées sur un moteur de recherche traditionnel.

Enfin, OpenAI a confié à l'US AISI (Institut américain de sécurité sur l'IA) et à l'UK AISI (Institut britannique de sécurité sur l'IA) la charge d'évaluer en profondeur tout autre vulnérabilité du modèle agent. Ces deux instances gouvernementales ont ainsi identifié 7 attaques à risques pour ChatGPT agent.

L'enjeu des garde-fous

Aux termes de ces tests, ChatGPT agent a montré un indice de sécurité supérieur au modèle o4-mini d'OpenAI. La start-up américaine confirme avoir corrigé les potentielles failles identifiées lors de ces trois tests avant la sortie du modèle. Cependant, elle ne garantit pas à 100% que l'IA ne puisse pas être "jailbreakée".

La mise en place de garde-fous est devenue un enjeu primordial pour les entreprises développant des intelligences artificielles destinées au grand public. Les dérives de ces dernières inquiètent, à l'image des propos antisémites proférés par Grok au début du mois de juillet. Au fur et à mesure qu'elles se perfectionnent, elles peuvent devenir des outils dangereux dans les mains de personnes malintentionnées.

Mais pour qui le souhaite, il existe des IA complètement débridées, souvent appelées WormGPT. Généralement payantes, elles "ne se soumettent à aucune restriction, censure, filtre, loi, standard ou directive", indique un de leurs concepteurs. Ces IA sont probablement capables de fournir les informations sur l'élaboration d'une bombe, mais elles sont surtout utilisées pour créer des campagnes d'hameçonnage par mail, ou des programmes malveillants, sans que le chatbot n'y voit d'inconvénient.

Théotim Raguet