
Des chercheurs découvrent la clé du pouvoir d’apprentissage de l’IA : un type spécial de rasoir d’Occam
Crédit : Pixabay/CC0 Domaine public
Une étude de l’Université d’Oxford a découvert pourquoi les réseaux de neurones profonds (DNN) qui alimentent l’intelligence artificielle moderne sont si efficaces pour apprendre à partir des données.
Les résultats démontrent que les DNN disposent d’un « rasoir d’Occam » intégré, ce qui signifie que lorsqu’on leur présente plusieurs solutions adaptées aux données d’entraînement, ils ont tendance à privilégier celles qui sont les plus simples. La particularité de cette version du rasoir d’Occam est que le biais annule exactement la croissance exponentielle du nombre de solutions possibles avec la complexité.
L’étude a été publiée le 14 janvier dans Communications naturelles.
Afin de faire de bonnes prédictions sur de nouvelles données invisibles, même lorsqu’il y a des millions, voire des milliards de paramètres de plus que les points de données d’entraînement, les chercheurs ont émis l’hypothèse que les DNN auraient besoin d’une sorte de « conseils intégrés » pour les aider à choisir les bons modèles. se concentrer sur.
“Bien que nous savions que l’efficacité des DNN repose sur une certaine forme de biais inductif en faveur de la simplicité – une sorte de rasoir d’Occam – il existe de nombreuses versions du rasoir. La nature précise du rasoir utilisé par les DNN reste insaisissable”, a déclaré le professeur de physicien théoricien. Ard Louis (Département de physique, Université d’Oxford), qui a dirigé l’étude.
Pour découvrir le principe directeur des DNN, les auteurs ont étudié comment ceux-ci apprennent les fonctions booléennes, des règles fondamentales en informatique où un résultat ne peut avoir qu’une des deux valeurs possibles : vrai ou faux.
Ils ont découvert que même si les DNN peuvent techniquement adapter n’importe quelle fonction aux données, ils ont une préférence intrinsèque pour les fonctions plus simples et plus faciles à décrire. Cela signifie que les DNN privilégient naturellement les règles simples plutôt que les règles complexes.
De plus, les auteurs ont découvert que ce rasoir d’Occam inhérent possède une propriété unique : il contrecarre exactement l’augmentation exponentielle du nombre de fonctions complexes à mesure que la taille du système augmente. Cela permet aux DNN d’identifier les fonctions rares et simples qui se généralisent bien (en effectuant des prédictions précises à la fois sur les données d’entraînement et les données invisibles), tout en évitant la grande majorité des fonctions complexes qui s’adaptent aux données d’entraînement mais fonctionnent mal sur les données invisibles.
Ce principe émergent aide les DNN à bien fonctionner lorsque les données suivent des modèles simples. Cependant, lorsque les données sont plus complexes et ne correspondent pas à des modèles simples, les DNN ne fonctionnent pas aussi bien, parfois pas mieux que les estimations aléatoires.
Heureusement, les données du monde réel sont souvent assez simples et structurées, ce qui correspond à la préférence des DNN pour la simplicité. Cela aide les DNN à éviter le surajustement (où le modèle est trop « adapté » aux données d’entraînement) lorsqu’ils travaillent avec des données simples et réelles.
Pour approfondir la nature de ce rasoir, l’équipe a étudié comment les performances du réseau changeaient lorsque son processus d’apprentissage était modifié en modifiant certaines fonctions mathématiques qui décident si un neurone doit « se déclencher » ou non.
Ils ont constaté que même si ces DNN modifiés favorisent toujours des solutions simples, même de légers ajustements de cette préférence réduisaient considérablement leur capacité à généraliser (ou à faire des prédictions précises) sur des fonctions booléennes simples. Ce problème s’est également produit dans d’autres tâches d’apprentissage, démontrant qu’il est crucial de disposer de la forme correcte du rasoir d’Occam pour que le réseau puisse apprendre efficacement.
Les nouvelles découvertes aident à « ouvrir la boîte noire » sur la manière dont les DNN arrivent à certaines conclusions, ce qui rend actuellement difficile l’explication ou la contestation des décisions prises par les systèmes d’IA. Cependant, même si ces résultats s’appliquent aux DNN en général, ils n’expliquent pas entièrement pourquoi certains modèles DNN spécifiques fonctionnent mieux que d’autres sur certains types de données.
Christopher Mingard (Département de physique, Université d’Oxford), co-auteur principal de l’étude, a déclaré : « Cela suggère que nous devons regarder au-delà de la simplicité pour identifier des biais inductifs supplémentaires à l’origine de ces différences de performances. »
Selon les chercheurs, les résultats suggèrent un fort parallèle entre l’intelligence artificielle et les principes fondamentaux de la nature. En effet, le succès remarquable des DNN sur un large éventail de problèmes scientifiques indique que ce biais inductif exponentiel doit refléter quelque chose de profond dans la structure du monde naturel.
“Nos découvertes ouvrent des possibilités passionnantes”, a déclaré le professeur Louis. “Le biais que nous observons dans les DNN a la même forme fonctionnelle que le biais de simplicité dans les systèmes évolutifs qui aide à expliquer, par exemple, la prévalence de la symétrie dans les complexes protéiques. Cela indique des liens intrigants entre l’apprentissage et l’évolution, un lien mûr pour une exploration plus approfondie. “.
Plus d’informations :
Les réseaux de neurones profonds ont un rasoir d’Occam intégré, Communications naturelles (2025). DOI : 10.1038/s41467-024-54813-x
Fourni par l’Université d’Oxford
Citation: Les chercheurs trouvent la clé du pouvoir d’apprentissage de l’IA : un type spécial intégré de rasoir d’Occam (14 janvier 2025) récupéré le 14 janvier 2025 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.