L’IA générative ne peut pas encore lire et extraire de manière fiable les informations des notes cliniques dans les dossiers médicaux, selon une étude
Il sera peut-être un jour possible d’utiliser des modèles de langage étendus (LLM) pour lire automatiquement les notes cliniques dans les dossiers médicaux et extraire de manière fiable et efficace des informations pertinentes pour soutenir les soins aux patients ou la recherche. Mais une étude récente de la Mailman School of Public Health de l’université Columbia utilisant ChatGPT-4 pour lire les notes médicales des admissions aux urgences afin de déterminer si les conducteurs de scooter et de vélo blessés portaient un casque révèle que les LLM ne peuvent pas encore le faire de manière fiable. Les résultats sont publiés dans Réseau JAMA ouvert.
Dans une étude portant sur 54 569 visites aux urgences parmi des patients blessés alors qu’ils circulaient à vélo, en scooter ou avec un autre moyen de transport de micromobilité de 2019 à 2022, l’IA LLM a eu du mal à reproduire les résultats d’une approche basée sur la recherche de chaînes de texte pour extraire le statut du casque à partir de notes cliniques.
Le LLM n’a obtenu de bons résultats que lorsque l’invite incluait l’intégralité du texte utilisé dans l’approche basée sur la recherche de chaîne de texte. Le LLM a également eu du mal à reproduire son travail dans les essais sur chacun des cinq jours successifs, il a mieux réussi à reproduire ses hallucinations que son travail précis. Il a particulièrement eu du mal lorsque des phrases ont été niées, comme lire « sans casque » ou « sans casque » et signaler que le patient portait un casque.
Les dossiers médicaux électroniques contiennent de grandes quantités de données médicales pertinentes sous forme de notes cliniques écrites, un type de données non structurées. Des méthodes efficaces pour lire et extraire des informations de ces notes seraient extrêmement utiles pour la recherche.
Actuellement, les informations contenues dans ces dossiers cliniques peuvent être extraites à l’aide de simples méthodes de recherche textuelle par correspondance de chaînes ou par des approches plus sophistiquées basées sur l’intelligence artificielle (IA) telles que le traitement du langage naturel. On espérait qu’un nouveau LLM, tel que ChatGPT-4, pourrait extraire les informations plus rapidement et de manière plus fiable.
« Bien que nous constations des gains d’efficacité potentiels dans l’utilisation du LLM d’IA générative pour les tâches d’extraction d’informations, les problèmes de fiabilité et d’hallucinations limitent actuellement son utilité », a déclaré Andrew Rundle, DrPH, professeur d’épidémiologie à la Columbia Mailman School et auteur principal.
« Lorsque nous utilisions des invites très détaillées qui incluaient toutes les chaînes de texte liées aux casques, ChatGPT-4 parvenait certains jours à extraire des données précises des notes cliniques. Mais le temps nécessaire pour définir et tester tout le texte qui devait être inclus dans l’invite et l’incapacité de ChatGPT-4 à reproduire son travail, jour après jour, nous indiquent que ChatGPT-4 n’était pas encore à la hauteur de cette tâche. »
À partir de données publiques de 2019 à 2022 provenant du National Electronic Injury Surveillance System de la Consumer Product Safety Commission des États-Unis, un échantillon de 96 hôpitaux américains, Rundle et ses collègues ont analysé les dossiers des services d’urgence des patients blessés dans des accidents de vélo électrique, de bicyclette, d’hoverboard et de trottinette électrique. Ils ont comparé les résultats des analyses des dossiers par ChatGPT-4 aux données générées à l’aide de recherches plus traditionnelles basées sur des chaînes de texte et, pour 400 dossiers, ils ont comparé les analyses de ChatGPT à leur propre lecture des notes cliniques dans les dossiers.
Cette recherche s’appuie sur leurs travaux visant à étudier la manière de prévenir les blessures chez les utilisateurs de micromobilité (c’est-à-dire les cyclistes, les conducteurs de vélos électriques, les conducteurs de scooters). « Le port du casque est un facteur clé de la gravité des blessures, mais dans la plupart des dossiers médicaux et des rapports d’incidents des services d’urgence, les informations sur le port du casque sont enfouies dans les notes cliniques rédigées par le médecin ou le répondant des services médicaux d’urgence. Il existe un besoin important de recherche pour pouvoir accéder de manière fiable et efficace à ces informations », a déclaré Kathryn Burford, auteur principal de l’article et chercheuse postdoctorale au département d’épidémiologie de la Mailman School.
« Notre étude a examiné le potentiel d’un LLM pour extraire des informations à partir de notes cliniques, une source riche d’informations pour les professionnels de la santé et les chercheurs », a déclaré Rundle. « Mais à l’époque où nous utilisions ChatGPT-4, il ne pouvait pas nous fournir de données fiables. »
Les co-auteurs sont Nicole G. Itzkowitz, de la Columbia Mailman School of Public Health ; Ashley G. Ortega, du Columbia Population Research Center ; et Julien O. Teitler, de la Columbia School of Social Work.
Plus d’informations :
Kathryn G. Burford et al., Utilisation de l’IA générative pour identifier le statut du casque chez les patients souffrant de blessures liées à la micromobilité à partir de notes cliniques non structurées, Ouverture du réseau JAMA (2024). DOI : 10.1001/jamanetworkopen.2024.25981
Fourni par la Mailman School of Public Health de l’Université de Columbia
Citation:L’IA générative ne peut pas encore lire et extraire de manière fiable les informations des notes cliniques dans les dossiers médicaux, selon une étude (2024, 19 août) récupéré le 19 août 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.