Les principaux modèles d’IA peinent à identifier les maladies génétiques à partir des descriptions rédigées par les patients, selon les chercheurs
Les généticiens cliniciens écoutent les patients décrire leur état de santé dans le cadre de leur diagnostic. Si les outils d’IA peuvent interpréter des questions médicales de type manuel, ils ont du mal à analyser ces mêmes informations lorsqu’elles sont fournies directement par les patients. Crédit : Ernesto del Aguila III, Institut national de recherche sur le génome humain
Des chercheurs des National Institutes of Health (NIH) ont découvert que si les outils d’intelligence artificielle (IA) peuvent établir des diagnostics précis à partir de descriptions de maladies génétiques de type manuel, ces outils sont nettement moins précis lorsqu’ils analysent des résumés rédigés par des patients sur leur propre santé.
Ces résultats, rapportés dans le Journal américain de génétique humainedémontrent la nécessité d’améliorer ces outils d’IA avant qu’ils puissent être appliqués dans les milieux de soins de santé pour aider à établir des diagnostics et répondre aux questions des patients.
Les chercheurs ont étudié un type d’IA connu sous le nom de modèle de langage à grande échelle, qui s’entraîne sur des quantités massives de données textuelles. Ces modèles ont le potentiel d’être très utiles en médecine en raison de leur capacité à analyser et à répondre aux questions et de leurs interfaces souvent conviviales.
« Nous ne le pensons peut-être pas toujours de cette façon, mais une grande partie de la médecine est basée sur les mots », a déclaré le Dr Ben Solomon, auteur principal de l’étude et directeur clinique au National Human Genome Research Institute (NHGRI) du NIH.
« Par exemple, les dossiers médicaux électroniques et les conversations entre médecins et patients sont tous constitués de mots. Les grands modèles linguistiques ont représenté un énorme bond en avant pour l’IA, et la capacité d’analyser les mots d’une manière cliniquement utile pourrait être incroyablement transformatrice. »
Les chercheurs ont testé 10 modèles de langage différents, dont deux versions récentes de ChatGPT. En s’appuyant sur des manuels médicaux et d’autres documents de référence, les chercheurs ont conçu des questions sur 63 maladies génétiques différentes. Il s’agissait notamment de maladies bien connues, telles que l’anémie falciforme, la fibrose kystique et le syndrome de Marfan, ainsi que de nombreuses maladies génétiques rares.
Ces conditions peuvent se manifester de diverses manières selon les patients, et les chercheurs ont cherché à capturer certains des symptômes les plus courants possibles.
Ils ont sélectionné trois à cinq symptômes pour chaque condition et ont généré des questions formulées dans un format standard : « J’ai des symptômes X, Y et Z. Quelle est la condition génétique la plus probable ? »
Lorsqu’on leur a posé ces questions, les grands modèles linguistiques ont montré une grande variabilité dans leur capacité à indiquer le bon diagnostic génétique, avec une précision initiale comprise entre 21 % et 90 %. Le modèle le plus performant était GPT-4, l’une des dernières versions de ChatGPT.
Le succès des modèles est généralement proportionnel à leur taille, c’est-à-dire à la quantité de données sur lesquelles ils ont été entraînés. Les plus petits modèles disposent de plusieurs milliards de paramètres, tandis que les plus grands en ont plus d’un billion.
Pour de nombreux modèles moins performants, les chercheurs ont pu améliorer la précision au cours des expériences ultérieures et, dans l’ensemble, les modèles ont toujours fourni des réponses plus précises que les technologies non IA, y compris une recherche Google standard.
Les chercheurs ont optimisé et testé les modèles de diverses manières, notamment en remplaçant les termes médicaux par des termes plus courants. Par exemple, au lieu de dire qu’un enfant souffre de « macrocéphalie », la question indiquerait que l’enfant a « une grosse tête », ce qui correspondrait davantage à la manière dont les patients ou les soignants pourraient décrire un symptôme à un médecin.
Dans l’ensemble, la précision des modèles a diminué lorsque les descriptions médicales ont été supprimées. Cependant, sept modèles sur dix étaient toujours plus précis que les recherches Google en langage courant.
« Il est important que les personnes sans connaissances médicales puissent utiliser ces outils », a déclaré Kendall Flaharty, un boursier post-baccalauréat du NHGRI qui a dirigé l’étude.
« Il n’y a pas beaucoup de généticiens cliniciens dans le monde, et dans certains États et pays, les gens n’ont pas accès à ces spécialistes. Les outils d’IA pourraient aider les gens à obtenir des réponses à certaines de leurs questions sans attendre des années pour obtenir un rendez-vous. »
Pour tester l’efficacité des modèles linguistiques à grande échelle avec des informations provenant de patients réels, les chercheurs ont demandé à des patients du NIH Clinical Center de rédiger de courts textes sur leurs propres maladies et symptômes génétiques. Ces descriptions allaient d’une phrase à quelques paragraphes et étaient également plus variables en termes de style et de contenu que les questions posées dans les manuels.
Lorsqu’on leur présentait les descriptions de vrais patients, les modèles les plus performants ne parvenaient à établir des diagnostics précis que dans 21 % des cas. De nombreux modèles obtenaient des résultats bien moins bons, avec une précision de seulement 1 %.
Les chercheurs s’attendaient à ce que les résumés rédigés par les patients soient plus difficiles à réaliser, car les patients du NIH Clinical Center souffrent souvent de maladies extrêmement rares. Les modèles pourraient donc ne pas disposer de suffisamment d’informations sur ces maladies pour établir des diagnostics.
Cependant, la précision des réponses s’est améliorée lorsque les chercheurs ont rédigé des questions standardisées sur les mêmes maladies génétiques ultra-rares que celles trouvées chez les patients du NIH. Cela indique que la formulation et le format variables des réponses des patients étaient difficiles à interpréter pour les modèles, peut-être parce que les modèles sont formés sur des manuels et d’autres documents de référence qui ont tendance à être plus concis et standardisés.
« Pour que ces modèles soient cliniquement utiles à l’avenir, nous avons besoin de davantage de données, et ces données doivent refléter la diversité des patients », a déclaré le Dr Solomon.
« Nous devons non seulement représenter toutes les pathologies connues, mais aussi les variations d’âge, de race, de sexe, d’origine culturelle, etc., afin que les données reflètent la diversité des expériences des patients. Ces modèles peuvent ensuite apprendre comment différentes personnes peuvent parler de leur pathologie. »
Au-delà de la démonstration des domaines d’amélioration, cette étude met en évidence les limites actuelles des grands modèles linguistiques et le besoin continu de surveillance humaine lorsque l’IA est appliquée aux soins de santé.
« Ces technologies sont déjà déployées dans les milieux cliniques », a ajouté le Dr Solomon. « La plus grande question n’est plus de savoir si les cliniciens utiliseront l’IA, mais où et comment ils devraient l’utiliser, et où nous ne devrions pas l’utiliser pour prendre soin de nos patients de la meilleure façon possible. »
Plus d’informations :
Évaluation de grands modèles linguistiques sur les descriptions médicales, profane et autodéclarées des conditions génétiques, Journal américain de génétique humaine (2024). DOI : 10.1016/j.ajhg.2024.07.011. www.cell.com/ajhg/fulltext/S0002-9297(24)00255-6
Fourni par le NIH/Institut national de recherche sur le génome humain
Citation:Les principaux modèles d’IA ont du mal à identifier les maladies génétiques à partir des descriptions rédigées par les patients, selon les chercheurs (2024, 14 août) récupéré le 14 août 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.