ChatGPT n’est toujours pas très efficace pour diagnostiquer les maladies humaines
Crédits : Sanket Mishra de Pexels
Une équipe de chercheurs médicaux de la Schulich School of Medicine and Dentistry de l’Université Western a découvert que, malgré une formation sur des téraoctets de données, le LLM ChatGPT n’est toujours pas efficace pour diagnostiquer les maladies humaines. Dans leur étude, publiée sur le site en libre accès PLOS ONEle groupe a formé le populaire LLM sur 150 études de cas et l’a incité à fournir un diagnostic.
Des recherches antérieures et des données anecdotiques ont montré que les LLM tels que ChatGPT peuvent fournir des résultats impressionnants sur certaines questions, comme écrire un poème d’amour pour une petite amie, mais ils peuvent également renvoyer des réponses incorrectes ou bizarres. De nombreux acteurs du domaine ont suggéré de faire preuve de prudence lors de l’utilisation des résultats produits par un LLM sur des sujets importants comme les conseils de santé.
Pour cette nouvelle étude, l’équipe canadienne a évalué la capacité de ChatGPT à diagnostiquer des maladies humaines en présentant les symptômes de patients réels tels que décrits dans des études de cas réelles. Ils ont choisi 150 études de cas de Medscape, un site Web en ligne créé et utilisé par des professionnels de la santé à des fins informatives et éducatives, qui étaient accompagnées d’un diagnostic précis connu. Ils ont entraîné ChatGPT 3.5 avec des données pertinentes, telles que les antécédents du patient, les résultats de laboratoire et les résultats d’examens en cabinet, puis lui ont demandé un diagnostic et/ou un plan de traitement.
Après que le LLM ait répondu, l’équipe de recherche a évalué ses résultats en fonction de la proximité du diagnostic correct. Elle a également évalué la qualité de la présentation des raisons qui ont conduit à son diagnostic, notamment en proposant des citations, un élément important du diagnostic médical. Elle a ensuite fait la moyenne des notes reçues pour toutes les études de cas et a constaté que le LLM n’avait donné un diagnostic correct que dans 49 % des cas.
Les chercheurs notent que même si le LLM a obtenu de mauvais résultats, il a bien décrit la manière dont il a établi son diagnostic – une caractéristique qui, selon l’équipe, pourrait s’avérer utile pour les étudiants en médecine. Ils ont également noté que le LLM était assez efficace pour écarter d’éventuelles maladies. Ils concluent en suggérant que les LLM ne sont pas encore prêts à être utilisés dans des contextes diagnostiques.
Plus d’information:
Ali Hadi et al, Évaluation de ChatGPT comme outil de diagnostic pour les apprenants en médecine et les cliniciens, PLOS ONE (2024). DOI: 10.1371/journal.pone.0307383
© 2024 Réseau Science X
Citation:ChatGPT n’est toujours pas très efficace pour diagnostiquer les maladies humaines (2024, 1er août) récupéré le 1er août 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.