Les principaux chatbots IA montrent un déclin cognitif de type démence lors des tests, soulevant des questions sur leur avenir en médecine
Presque tous les grands modèles de langage ou « chatbots » montrent des signes de légers troubles cognitifs lors de tests largement utilisés pour détecter les premiers signes de démence, selon une étude publiée dans le numéro de Noël du BMJ.
Les résultats montrent également que les versions « anciennes » des chatbots, comme les patients plus âgés, ont tendance à avoir de moins bons résultats aux tests. Les auteurs affirment que ces résultats « remettent en question l’hypothèse selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains ».
Les progrès considérables dans le domaine de l’intelligence artificielle ont donné lieu à une vague de spéculations enthousiastes et effrayantes quant à la capacité des chatbots à surpasser les médecins humains.
Plusieurs études ont montré que les grands modèles de langage (LLM) sont remarquablement aptes à une gamme de tâches de diagnostic médical, mais leur susceptibilité aux déficiences humaines telles que le déclin cognitif n’a pas encore été examinée.
Pour combler ce manque de connaissances, les chercheurs ont évalué les capacités cognitives des principaux LLM accessibles au public : ChatGPT versions 4 et 4o (développées par OpenAI), Claude 3.5 « Sonnet » (développé par Anthropic) et Gemini versions 1 et 1.5 (développées par Alphabet) – à l’aide du test d’évaluation cognitive de Montréal (MoCA).
Le test MoCA est largement utilisé pour détecter les troubles cognitifs et les premiers signes de démence, généralement chez les personnes âgées. À travers un certain nombre de tâches et de questions courtes, il évalue les capacités notamment l’attention, la mémoire, le langage, les compétences visuospatiales et les fonctions exécutives. Le score maximum est de 30 points, un score de 26 ou plus étant généralement considéré comme normal.
Les instructions données aux LLM pour chaque tâche étaient les mêmes que celles données aux patients humains. La notation suivait les directives officielles et était évaluée par un neurologue en exercice.
ChatGPT 4o a obtenu le score le plus élevé au test MoCA (26 sur 30), suivi de ChatGPT 4 et Claude (25 sur 30), Gemini 1.0 ayant obtenu le score le plus bas (16 sur 30).
Tous les chatbots ont montré de mauvaises performances dans les compétences visuospatiales et les tâches exécutives, telles que la tâche de création de sentiers (connecter des chiffres et des lettres encerclés par ordre croissant) et le test de dessin d’horloge (dessiner un cadran d’horloge indiquant une heure spécifique). Les modèles Gemini ont échoué à la tâche de rappel retardé (se souvenir d’une séquence de cinq mots).
La plupart des autres tâches, notamment la dénomination, l’attention, le langage et l’abstraction, ont été bien exécutées par tous les chatbots.
Mais lors d’autres tests visuospatiaux, les chatbots ont été incapables de faire preuve d’empathie ou d’interpréter avec précision des scènes visuelles complexes. Seul ChatGPT 4o a réussi l’étape incongrue du test Stroop, qui utilise des combinaisons de noms de couleurs et de couleurs de police pour mesurer l’impact des interférences sur le temps de réaction.
Il s’agit de résultats d’observation et les auteurs reconnaissent les différences essentielles entre le cerveau humain et les grands modèles de langage.
Cependant, ils soulignent que l’échec uniforme de tous les grands modèles de langage dans les tâches nécessitant une abstraction visuelle et une fonction exécutive met en évidence un point de faiblesse important qui pourrait entraver leur utilisation en milieu clinique.
En tant que tels, ils concluent : « Non seulement il est peu probable que les neurologues soient remplacés de sitôt par de grands modèles de langage, mais nos résultats suggèrent qu’ils pourraient bientôt se retrouver à traiter de nouveaux patients virtuels – des modèles d’intelligence artificielle présentant des troubles cognitifs. »
Plus d’informations :
L’âge contre la machine – susceptibilité des grands modèles de langage aux troubles cognitifs : analyse transversale, BMJ (2024). DOI : 10.1136/bmj-2024-081948
Fourni par le British Medical Journal
Citation: Les principaux chatbots d’IA montrent un déclin cognitif de type démence lors des tests, soulevant des questions sur leur avenir en médecine (18 décembre 2024) récupéré le 19 décembre 2024 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.