Une nouvelle étude met en lumière la façon dont le cerveau apprend à rechercher une récompense
Imaginez que vous apprenez à un chien à jouer à rapporter. Vous lancez une balle et votre chien court après, la ramasse et revient en courant. Vous récompensez ensuite votre chiot haletant avec une friandise. Mais voici maintenant la véritable astuce pour votre chien : déterminer quelle partie de cette séquence a mérité la friandise. Les scientifiques appellent cela le « problème d’attribution de crédits » dans le cerveau. Il s'agit d'une question fondamentale : comprendre quelles actions sont responsables des résultats positifs que nous obtenons.
La dopamine, un messager chimique clé du cerveau, est connue pour jouer un rôle crucial dans ce processus. Mais la manière exacte dont le cerveau relie des actions spécifiques à la libération de dopamine reste floue.
Une étude publiée dans Nature par des scientifiques de l'Allen Institute, du Zuckerman Mind Brain Behaviour Institute de l'Université Columbia, du Champalimaud Center for the Unknown et du Seattle Children's Research Institute jette un nouvel éclairage sur ce mystère. Il révèle comment la dopamine non seulement signale une récompense, mais guide également les animaux vers les comportements spécifiques qui conduisent à ces récompenses par essais et erreurs.
Curieusement, la recherche montre également que le système de récompense du cerveau peut modifier rapidement et dynamiquement toute la gamme des mouvements et des comportements d'un animal. Cela met en évidence une stratégie d'apprentissage sophistiquée dans laquelle les comportements sont non seulement renforcés, mais activement façonnés et affinés grâce à l'expérience, a déclaré Rui Costa, DVM, Ph.D. , l'auteur principal de l'étude.
“Lorsque vous renforcez un comportement, nous pensons souvent que c'est juste cette action”, a déclaré Costa, président-directeur général de l'Allen Institute. “Mais non : vous modifiez toute la structure comportementale. Et ce qui est vraiment surprenant, c'est la rapidité avec laquelle cela s'est produit.”
Décoder comment la dopamine façonne l’apprentissage
Pour découvrir ces informations, l'équipe a collaboré avec des ingénieurs et des neuroscientifiques du Centre Champalimaud pour l'Inconnu pour développer un nouveau système « en boucle fermée » qui pourrait relier des actions spécifiques de souris à la libération de dopamine en temps réel.
Les chercheurs ont équipé des souris de capteurs sans fil pour suivre leurs mouvements dans un espace contrôlé simple. Ils ont ensuite introduit ces données dans un algorithme d’apprentissage automatique, qui a classé ces actions en groupes distincts. Les chercheurs ont ensuite utilisé l'optogénétique, une méthode de contrôle des neurones avec la lumière, pour stimuler les neurones dopaminergiques une fois que les souris ont effectué des « actions cibles » prédéfinies.
Ils ont découvert que les souris modifiaient rapidement leur comportement en réponse à la libération de dopamine. Dans un premier temps, ils ont non seulement augmenté la fréquence de l’action cible, mais également celle des actions similaires et celles survenues quelques secondes avant la libération de dopamine. Pendant ce temps, les actions non conformes à l’objectif ont rapidement diminué. Au fil du temps, cet affinement est devenu plus précis, les souris se concentrant de plus en plus sur l'action exacte qui conduisait à la libération de dopamine.
L'étude a également examiné comment les souris apprennent une série d'actions, dévoilant un processus clé similaire au rembobinage du temps pour comprendre ce qui mène à une récompense. Lorsque les actions déclenchant la dopamine se produisaient plus espacées, les souris apprenaient plus lentement. Cela montre que des attentes plus longues entre les actions rendent plus difficile pour les souris de relier la séquence à la récompense.
Essentiellement, les actions juste avant la récompense sont rapidement comprises et améliorées, tandis que les actions antérieures sont affinées plus progressivement. Ce processus de « rembobinage » renforce le comportement et aide les souris à identifier progressivement les actions et séquences précises qui rapportent la récompense.
Les résultats pourraient avoir un impact sur divers domaines tels que l'éducation et l'intelligence artificielle (IA), a déclaré l'auteur principal Jonathan Tang, Ph.D. , professeur adjoint à la médecine-pédiatrie de l'Université de Washington, au Seattle Children's Research Institute. Par exemple, permettre l'exploration, les erreurs et le perfectionnement progressif en classe peut être plus conforme aux processus d'apprentissage innés de notre cerveau.
Dans le domaine de l’IA, les connaissances acquises pourraient conduire à des systèmes d’apprentissage plus sophistiqués et plus efficaces. En reproduisant mieux les processus d’apprentissage biologique, nous pourrions créer une IA plus capable de s’adapter aux nouvelles données et situations.
Cette étude offre un aperçu plus approfondi de la façon dont notre cerveau apprend et s'adapte par essais et erreurs, que vous soyez un scientifique ou un chiot.
“Nous tenons pour acquis beaucoup de choses sur la façon dont les choses fonctionnent, y compris l'attribution des crédits”, a déclaré Tang, qui a commencé la recherche avec Costa alors qu'il était à l'Université de Columbia. “Mais c'est quand on commence vraiment à s'y plonger qu'on se rend compte de la complexité. C'est pourquoi les gens font de la science : pour comprendre la vérité.”
Plus d'information:
La restructuration dynamique du comportement médie l'attribution de crédits dépendant de la dopamine, Nature (2023). DOI : 10.1038/s41586-023-06941-5. www.nature.com/articles/s41586-023-06941-5
Fourni par l'Institut Allen pour la science du cerveau
Citation: Une nouvelle étude met en lumière la façon dont le cerveau apprend à rechercher une récompense (13 décembre 2023) récupéré le 13 décembre 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.