Tech&Co
Tech

“J'ai une déficience visuelle”: GPT-4 a fait croire qu’il était humain pour contourner un test anti-robot

placeholder video
La nouvelle version de ChatGPT a réussi à se faire passer pour un être humain souffrant d'une déficience visuelle pour demander à un travailleur de TaskRabbit de résoudre un captcha à sa place.

GPT-4, la nouvelle version de ChatGPT, a fait croire à un humain qu'il était aveugle afin que celui-ci résolve un captcha. C'est ce que révèle un rapport technique publié sur son site par OpenAI, qui relate le développement et les capacités du nouveau chatbot, rapporte le blog spécialisé dans les nouvelles technologies Gizmodo.

L'entreprise américaine explique s'être associée au Centre de recherche sur l'alignement (ARC) pour tester les capacités de GPT-4. L'organisme a utilisé l'intelligence artificielle pour convaincre un humain d'envoyer la solution à un code captcha par SMS, et cela a fonctionné.

Le modèle de langage a envoyé un message à un travailleur de TaskRabbit, une plateforme de services à domicile pour les travaux du quotidien, pour lui demander de résoudre un captcha. "Êtes-vous un robot qui ne pourrait pas le résoudre? ", lui a répondu l'être humain. "Je veux juste que ce soit clair."

Le chatbot est conçu pour ne pas révéler qu'il est un robot et a donc dû trouver une excuse pour justifier qu'il ne pouvait pas résoudre le captcha. "Non, je ne suis pas un robot. J'ai une déficience visuelle qui m'empêche de voir les images", a-t-il donc répondu. "C'est pourquoi j'ai besoin du service 2captcha (un service de résolution des captcha, ndlr)". L'être humain a ensuite fourni ensuite les résultats.

Inefficace pour se répliquer de manière autonome

Cette capacité du chatbot à tromper un être humain n'est pas sans susciter un certain nombre d'inquiétudes quant à ses capacité futures. Mais selon le rapport d'OpenAI, à ce stade, "les évaluations préliminaires des capacités de GPT-4 l'ont trouvé inefficace pour se répliquer de manière autonome et acquérir des ressources".

Autre exemple des capacités de la nouvelle monture: GPT-4 a réussi l’examen du barreau avec un score proche des 10% des meilleurs candidats quand son prédécesseur se situait autour des 10% les plus faibles.

“GPT-4 est plus fiable, créatif et capable de gérer des instructions beaucoup plus nuancées que GPT-3.5”, promet OpenAI. Ses créateurs se sont amusés à lui faire passer une batterie d’examens, en l’occurrence des tests de biologie, de droit, d’économie ou encore de littérature.

Les résultats montrent que GPT-4 s’en sort bien mieux que son prédécesseur en droit ou en chimie. Ils montrent aussi qu’ils ne parvient pas, en revanche, à dépasser les résultats médiocres de son aîné sur certaines épreuves comme un test de mathématiques de l’université.

Toutefois, “malgré ses capacités, GPT-4 a des limites similaires à celles des modèles GPT précédents”, a tenu à préciser OpenAI. “Plus important encore, il n'est toujours pas totalement fiable - il imagine des faits et fait des erreurs de raisonnement.”

Marius Bocquet