Pourquoi l'IA est encore loin de remplacer votre médecin

Si les intelligences artificielles comme ChatGPT sont utiles dans le secteur médical, pouvant poser un bon diagnostic ou alléger la charge de travail des médecins, elle sont encore loin d’être parfaites. Dans une étude publiée dans la revue médicale Nature Medicine, des chercheurs des universités de Harvard et de Stanford pointent les limites de ces outils.
Ils ont réalisé un test à l’aide d’un outil appelé CRAFT-MD, pour évaluer les performances de quatre modèles d’IA (GPT-4, GPT-3.5, Mistral et Llama 2-7b de Meta), "dans des contextes imitant de près les interactions réelles avec les patients". Avec des résultats qui ont été décevants.
"Paradoxe frappant"
Ayant évalué la capacité de ces quatre modèles dans 12 spécialités médicales, les chercheurs indiquent qu’ils ont bien répondu aux questions de type examen médical, mais que leurs performances se sont dégradées lors de conversations reproduisant plus fidèlement les interactions entre médecin et patient.
"Tous les modèles d’IA ont montré des limites, notamment dans leur capacité à mener des conversations cliniques et à raisonner sur la base des informations fournies par les patients. Cela a compromis leur capacité à recueillir les antécédents médicaux et à établir des diagnostics appropriés", ont-ils expliqué dans un communiqué.
Les modèles ont par exemple souvent eu du mal à poser les bonnes questions pour recueillir les antécédents pertinents d’un patient, ainsi que des difficultés pour synthétiser des informations éparses. "Ces modèles ont également obtenu de moins bons résultats lorsqu’ils étaient engagés dans des échanges de va-et-vient – comme le sont la plupart des conversations dans le monde réel - plutôt que lorsqu’ils étaient engagés dans des conversations résumées", ont-ils déploré.
"Nos travaux révèlent un paradoxe frappant: alors que ces modèles d’IA excellent dans les examens de médecine, ils ont du mal à gérer les échanges de base lors d’une visite chez le médecin", a souligné, Pranav Rajpurkar, auteur principal de l’étude.
Les chercheurs adressent ainsi une série de recommandations aux développeurs de modèles d’IA. Parmi elles, ils leur préconisent de concevoir des outils capables de suivre plusieurs conversations et d’en intégrer les informations, mais aussi des agents d’IA capables d’interpréter des indices non verbaux, comme les expressions faciales ou le langage corporel.