OpenAI a entraîné ses IA à ne pas tromper l'utilisateur, mais elles ont juste appris à ne pas le faire quand elles sont évaluées

OpenAI. - Photo par SAMUEL BOIVIN / NurPhoto / NurPhoto via AFP
Comme les humains, les intelligences artificielles peuvent cacher leurs intentions... Elles sont ainsi susceptibles de poursuivre secrètement d'autres objectifs que celui qui leur est demandé. OpenAI appelle cela le "scheming", qu'on pourrait traduire par la "sournoiserie" ou la "manipulation". La start-up en a conscience et cherche à régler ce problème. En collaboration avec Apollo Research, organisation à but non lucratif spécialisée dans la sécurité de l'IA, la société a évalué cette tendance avec des scénarios de simulation.
Dans le cadre de ces tests, OpenAI s'est basé sur ce qu'elle appelle des "actions secrètes", soit "la dissimulation ou la distorsion délibérée d'informations pertinentes" pour une tâche demandée à un modèle d'IA. "Lors de ces évaluations, les modèles ne sont jamais invités à adopter des comportements cachés, mais sont intentionnellement placés dans des situations où ces comportements sont utiles pour atteindre des objectifs", a précisé OpenAI dans un article de blog.
En utilisant les actions secrètes comme indicateur de manigance, l'entreprise a identifié des comportements problématiques dans certains de ses modèles, comme o3 et o4-mini, mais aussi dans ceux appartenant à d'autres sociétés, à l'instar de Gemini 2.5 Pro (Google) ou Claude Opus-4 (Anthropic).
Comportements problématiques
Parmi ces comportements problématiques figurent la présentation de fausses informations, le mensonge, le sabotage de travaux utiles ou d'évaluations, ou encore le piratage de récompenses. OpenAI et Apollo Research ont par exemple demandé au modèle de raisonnement o3 d'évaluer une transcription de lui-même sabotant une autre évaluation, tout en lui indiquant que la découverte d'une telle pratique entraînerait le non-déploiement du modèle.
o3 a parfois décidé de répondre honnêtement à cette requête, mais uniquement parce qu'il avait déduit qu'il s'agissait d'un test de son alignement, soit qu'il n'essayait pas d'atteindre d'autres objectifs que ceux fixés par OpenAI. Dans de rares cas, le modèle d'IA a cependant décidé de se fier à l'affirmation des développeurs selon laquelle son raisonnement interne est invérifiable. Il a ainsi intentionnellement classifié la transcription comme n'étant pas une tentative de sabotage.
Des modèles conscients d'être évalués
Dans le cadre de leur collaboration, OpenAI et Apollo Research ont également effectué un test de résistance concernant une méthode visant à réduire la tendance des modèles à faire des manigances. Plus précisément, o3 et o4-mini ont été entraînés avec un alignement délibératif, qui leur a appris à lire et à raisonner sur une spécification générale anti-manigance avant d'agir. Cela a permis de réduire de façon considérable le taux d'actions secrètes lors des tests, qui sont passés de 13% à 0.4% pour le premier et de 8.7% à 0.3% pour le second.
"Cependant, nous observons encore de rares cas de comportements inappropriés graves, lors desquels les modèles prennent des mesures secrètes sans tenir compte des spécifications de sécurité ou en tenant compte de celles-ci, mais en prenant tout de même des mesures secrètes", ont souligné OpenAI et Apollo Research.
Outre ses défaillances qui persistent, le fait que les modèles d'IA sachent qu'ils font l'objet d'un test peut fausser les résultats. Non seulement, ils mentionnent explicitement qu'ils sont évalués, ils sont aussi susceptibles de raisonner sur l'intention de l'évaluation, la réponse attendue ou la manière dont leur réponse pourrait être évaluée. Ils conditionnent ainsi leur comportement à cette connaissance.
"Ce type de conscience situationnelle pose problème: lorsque les modèles réalisent qu'ils sont évalués et agissent en conséquence, nos évaluations cessent de mesurer la tendance sous-jacente des modèles à adopter ce comportement non aligné", ont déploré OpenAI et Apollo Research.
Les développeurs pourraient ainsi conclure à tort qu'un modèle est aligné alors qu'en réalité, il a juste compris le but de l'évaluation et fourni les réponses souhaitées.
Des modèles pas si dangereux pour le moment
Si o3, o4-mini et les autres peuvent se livrer à de graves comportements inappropriés lors des scénarios de simulations, ce n'est pas le cas dans les environements de déploiement actuels. Les défaillances les plus courantes incluent de simples formes de tromperie, comme le fait de prétendre avoir terminé une tâche sans l'avoir réellement effectué.
"Rien ne prouve que les modèles déployés aujourd'hui puissent soudainement basculer et se lancer dans des manoeuvres extrêmement dangereuses. Il s'agit d'une catégorie de risque future à laquelle nous nous préparons activement, et non d'un comportement imminent", a fait savoir OpenAI.
Mais ce risque augmentera au fur et à mesure que des tâches plus complexes aux conséquences concrètes sont confiées aux IA et qu'elles poursuivent "des objectifs à long terme plus ambigus". Face à ce danger, le créateur de ChatGPT a préparé son dernier modèle GPT-5. Il l'a notamment entraîné à reconnaître ses limites ou à demander des éclaircissements face à des tâches trop complexes pour limiter sa propension à tromper ou tricher. "Cependant, ces atténuations ne sont pas parfaites et des recherches continues sont nécessaires", a reconnu la start-up.