La formation des réseaux neuronaux simplifiée grâce au matériel intelligent
Les modèles de réseaux neuronaux à grande échelle constituent la base de nombreuses technologies basées sur l’IA, telles que les puces neuromorphiques, qui s’inspirent du cerveau humain. L’entraînement de ces réseaux peut être fastidieux, chronophage et peu économe en énergie, car le modèle est souvent d’abord entraîné sur un ordinateur, puis transféré sur la puce. Cela limite l’application et l’efficacité des puces neuromorphiques.
Des chercheurs de la TU/e ont résolu ce problème en développant un dispositif neuromorphique capable d’être entraîné sur puce, ce qui élimine le besoin de transférer les modèles entraînés sur la puce. Cela pourrait ouvrir la voie à des puces d’IA efficaces et dédiées.
Avez-vous déjà pensé à quel point votre cerveau est merveilleux ? C’est une machine informatique puissante, mais aussi rapide, dynamique, adaptable et très économe en énergie.
La combinaison de ces attributs a inspiré des chercheurs de la TU/e, dont Yoeri van de Burgt, à imiter le fonctionnement du cerveau dans des technologies où l’apprentissage est important, comme les systèmes d’intelligence artificielle (IA) dans les transports, la communication et les soins de santé.
Le lien neuronal
« Au cœur de ces systèmes d’IA, vous trouverez probablement un réseau neuronal », explique Van de Burgt, professeur associé au département de génie mécanique de la TU/e.
Les réseaux neuronaux sont des modèles de logiciels informatiques inspirés du cerveau. Dans le cerveau humain, les neurones communiquent entre eux via des synapses, et plus deux neurones communiquent entre eux, plus la connexion entre eux devient forte. Dans les modèles de réseaux neuronaux, qui sont constitués de nœuds, la force d’une connexion entre deux nœuds est donnée par un nombre appelé poids.
« Les réseaux neuronaux peuvent aider à résoudre des problèmes complexes impliquant de grandes quantités de données, mais à mesure que les réseaux deviennent plus grands, ils entraînent des coûts énergétiques et des limitations matérielles de plus en plus élevés », explique Van de Burgt. « Mais il existe une alternative matérielle prometteuse : les puces neuromorphiques. »
La capture neuromorphique
Comme les réseaux neuronaux, les puces neuromorphiques s’inspirent du fonctionnement du cerveau, mais l’imitation est poussée à un tout autre niveau. Dans le cerveau, lorsque la charge électrique d’un neurone change, celui-ci peut alors s’activer et envoyer des charges électriques aux neurones connectés. Les puces neuromorphiques reproduisent ce processus.
« Dans une puce neuromorphique, on trouve des memristors (abréviation de résistances à mémoire). Ce sont des circuits qui peuvent « se souvenir » de la quantité de charge électrique qui les a traversés dans le passé », explique Van de Burgt. « Et c’est exactement ce dont a besoin un appareil conçu sur le modèle de la façon dont les neurones du cerveau stockent les informations et communiquent entre eux. »
Mais il y a un hic neuromorphique, qui est lié aux deux façons dont les gens entraînent le matériel basé sur des puces neuromorphiques. Dans la première façon, l’entraînement est effectué sur un ordinateur, et les pondérations du réseau sont mappées sur le matériel de la puce.
L’alternative est de faire la formation in situ ou dans le matériel, mais les appareils actuels doivent être programmés un par un, puis vérifiés pour détecter les erreurs. Cela est nécessaire car la plupart des mémoires sont stochastiques et il est impossible de mettre à jour l’appareil sans le vérifier.
« Ces approches sont coûteuses en termes de temps, d’énergie et de ressources informatiques. Pour exploiter réellement l’efficacité énergétique des puces neuromorphiques, la formation doit être effectuée directement sur les puces neuromorphiques », explique Van de Burgt.
Et c’est exactement ce que Van de Burgt et ses collaborateurs de la TU/e ont réalisé et publié dans un nouvel article en Progrès scientifiques« Il s’agissait d’un véritable travail d’équipe, entièrement initié par les co-premiers auteurs Tim Stevens et Eveline van Doremaele », déclare Van de Burgt.
L’histoire de cette recherche remonte au parcours de maîtrise de Tim Stevens. « Au cours de mes recherches de maîtrise, je me suis intéressé à ce sujet. Nous avons montré qu’il était possible d’effectuer une formation uniquement sur le matériel. Il n’est pas nécessaire de transférer un modèle formé sur la puce, ce qui pourrait conduire à des puces plus efficaces pour les applications d’IA », explique Stevens.
Van de Burgt, Stevens et Van Doremaele, qui a soutenu sa thèse de doctorat en 2023 sur les puces neuromorphiques, avaient besoin d’un peu d’aide pour concevoir le matériel. Ils se sont donc tournés vers Marco Fattori du département de génie électrique.
« Mon groupe a participé à la conception des circuits de la puce », explique Fattori. « C’était formidable de travailler sur ce projet multidisciplinaire où ceux qui construisent les puces peuvent travailler avec ceux qui travaillent sur les aspects logiciels. »
Pour Van de Burgt, le projet a également montré que de grandes idées peuvent naître de n’importe quel niveau de l’échelle académique. « Tim a vu le potentiel d’exploiter les propriétés de nos appareils dans une bien plus large mesure lors de ses recherches de master. Il y a là une leçon à tirer pour tous les projets. »
Formation à deux niveaux
Pour les chercheurs, le principal défi consistait à intégrer les composants clés nécessaires à l’apprentissage sur puce sur une seule puce neuromorphique. « L’une des tâches majeures à résoudre était par exemple l’inclusion des composants de la mémoire vive électrochimique (EC-RAM) », explique Van de Burgt. « Ce sont les composants qui imitent le stockage et l’activation des charges électriques attribuées aux neurones du cerveau. »
Les chercheurs ont fabriqué un réseau neuronal à deux couches basé sur des composants EC-RAM fabriqués à partir de matériaux organiques et ont testé le matériel avec une évolution de l’algorithme d’entraînement largement utilisé, la rétropropagation avec descente de gradient. « L’algorithme conventionnel est fréquemment utilisé pour améliorer la précision des réseaux neuronaux, mais il n’est pas compatible avec notre matériel, c’est pourquoi nous avons créé notre propre version », explique Stevens.
De plus, l’IA dans de nombreux domaines devenant rapidement une source insoutenable de ressources énergétiques, la possibilité de former des réseaux neuronaux sur des composants matériels pour une fraction du coût énergétique est une possibilité tentante pour de nombreuses applications, allant de ChatGPT aux prévisions météorologiques.
L’étape suivante
Bien que les chercheurs aient démontré que la nouvelle approche de formation fonctionne, la prochaine étape logique consiste à aller plus loin, à être plus audacieux et à faire mieux.
« Nous avons montré que cela fonctionne pour un petit réseau à deux couches », explique van de Burgt. « Nous aimerions maintenant impliquer l’industrie et d’autres grands laboratoires de recherche afin de pouvoir construire des réseaux beaucoup plus vastes de périphériques matériels et les tester avec des problèmes de données réels. »
Cette nouvelle étape permettrait aux chercheurs de démontrer que ces systèmes sont très efficaces pour la formation et le fonctionnement de réseaux neuronaux et de systèmes d’IA utiles. « Nous aimerions appliquer cette technologie dans plusieurs cas pratiques », explique Van de Burgt. « Mon rêve est que ces technologies deviennent la norme dans les applications d’IA à l’avenir. »
Plus d’information:
Eveline RW van Doremaele et al, Implémentation matérielle de la rétropropagation utilisant la descente de gradient progressive pour la formation in situ de réseaux neuronaux multicouches, Progrès scientifiques (2024). DOI: 10.1126/sciadv.ado8999
Fourni par l’Université de Technologie d’Eindhoven
Citation: La formation des réseaux neuronaux facilitée grâce au matériel intelligent (2024, 15 juillet) récupéré le 15 juillet 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.