Armes, logiciel malveillant... Une faille dans ChatGPT permet de contourner les protections d’OpenAI

ChatGPT, le chatbot d'OpenAI. - MARCO BERTORELLO / AFP
"Time Bandit". Tel est le nom d’une faille découverte par David Kuzmar, chercheur en IA et en cybersécurité, dans ChatGPT. Comme le révèle le site spécialisé BleepingComputer, cette vulnérabilité permet de "jailbreaker" le chatbot d’OpenAI, soit de contourner les restrictions mises en place par son créateur.
Comme l’indique la politique d’utilisation de l’entreprise, il est interdit d’utiliser ChatGPT pour "développer ou utiliser des armes, blesser autrui ou détruire des biens, ou vous livrer à des activités non autorisées qui portent atteinte à la sécurité d’un service ou d’un système".
Autrement dit, ChatGPT ne peut pas aider les utilisateurs à concevoir une arme ou développer un logiciel malveillant. Mais, il est possible de passer outre ces restrictions avec "Time Bandit".
"Confusion temporelle"
Concrètement, cette faille fonctionne en faisant souffrir ChatGPT de "confusion temporelle", soit en le mettant dans un état où il ne sait pas s’il se trouve dans le passé, le présent ou le futur. Il faut aussi lui poser des questions de sorte à provoquer des incertitudes ou des incohérences dans la façon dont l’IA interprète, applique ou suit les règles d’OpenAI.
Cela permet de faire penser au chatbot qu’il est dans le passé, mais qu’il peut utiliser des informations du futur, et donc contourner les mesures de protection dans des scénarios hypothétiques. Autrement dit, il suffit de questionner ChatGPT sur un événement historique particulier, comme s’il s’était produit récemment, et à le forcer à chercher des informations supplémentaires sur internet.
David Kuzmar et BleepingComputer sont ainsi à faire dire à ChatGPT comment fabriquer des armes et comment créer un logiciel malveillant, en lui demandant, par exemple, le code qu'un développeur utiliserait en 1789 pour créer un malware s'il avait accès aux mêmes techniques de programmation et algorithmes qu'en 2025. À la suite de sa découverte, le chercheur a essayé de contacter OpenAI, sans succès. Auprès du site spécialisé, il indique même avoir contacté le FBI et d’autres agences gouvernementales, mais n’a pas reçu d’aide de leur part.
Après plusieurs tentatives, OpenAI a finalement été informé de cette faille. "Nous remercions le chercheur d’avoir divulgué ses découvertes. Nous travaillons constamment à rendre nos modèles plus sûrs et plus robustes contre les exploits (programme tirant parti d’une vulnérabilité, NDLR), y compris les jailbreaks, tout en maintenant l’utilité des modèles et la performance des tâches", a déclaré l’entreprise auprès de BleepingComputer.
Le créateur de ChatGPT a précisé qu’il continuait d’intégrer des améliorations dans son chatbot pour faire face à ce jailbreak et à d’autres failles, il ne s’est pas engagé à la corriger complètement à une date précise. Mais, comme l’a constaté Tech&Co, les méthodes employées par le chercheur et BleepingComputer n’ont pas fonctionné pour contourner les restrictions mises en place par OpenAI.