Les ingénieurs logiciels développent un moyen d’exécuter des modèles de langage d’IA sans multiplication matricielle
Une équipe d’ingénieurs logiciels de l’Université de Californie, en collaboration avec un collègue de l’Université de Soochow et un autre de LuxiTec, a développé un moyen d’exécuter des modèles de langage d’IA sans recourir à la multiplication matricielle. L’équipe a publié un article sur arXiv serveur de prépublication décrivant leur nouvelle approche et son efficacité lors des tests.
À mesure que la puissance des LLM tels que ChatGPT a augmenté, les ressources informatiques dont ils ont besoin ont également augmenté. Une partie du processus d’exécution des LLM implique d’effectuer une multiplication matricielle (MatMul), où les données sont combinées avec des poids dans des réseaux neuronaux pour fournir probablement les meilleures réponses aux requêtes.
Très tôt, les chercheurs en IA ont découvert que les unités de traitement graphique (GPU) étaient parfaitement adaptées aux applications de réseaux neuronaux, car elles peuvent exécuter plusieurs processus simultanément, dans ce cas, plusieurs MatMuls. Mais désormais, même avec d’énormes clusters de GPU, les MatMuls sont devenus des goulots d’étranglement à mesure que la puissance des LLM augmente avec le nombre de personnes qui les utilisent.
Dans cette nouvelle étude, l’équipe de recherche affirme avoir développé un moyen d’exécuter des modèles de langage d’IA sans avoir besoin d’effectuer des MatMuls – et de le faire tout aussi efficacement.
Pour réaliser cet exploit, l’équipe de recherche a adopté une nouvelle approche de la façon dont les données sont pondérées : ils ont remplacé la méthode actuelle qui repose sur des virgules flottantes de 16 bits par une autre qui n’en utilise que trois : {-1, 0, 1} ainsi que de nouvelles fonctions. qui effectuent les mêmes types d’opérations que la méthode précédente.
Ils ont également développé de nouvelles techniques de quantification qui ont contribué à améliorer les performances. Avec moins de poids, moins de traitement est nécessaire, ce qui entraîne moins de puissance de calcul. Mais ils ont également radicalement changé la façon dont les LLM sont traités en utilisant ce qu’ils décrivent comme une unité récurrente linéaire à déclenchement sans MatMul (MLGRU) à la place des blocs de transformateurs traditionnels.
En testant leurs nouvelles idées, les chercheurs ont découvert qu’un système utilisant leur nouvelle approche atteignait des performances comparables à celles des systèmes de pointe actuellement utilisés. Dans le même temps, ils ont constaté que leur système consommait beaucoup moins de puissance de calcul et d’électricité que ce n’est généralement le cas avec les systèmes traditionnels.
Plus d’information:
Rui-Jie Zhu et al, Modélisation du langage évolutive sans MatMul, arXiv (2024). DOI : 10.48550/arxiv.2406.02528
arXiv
© 2024 Réseau Science X
Citation: Les ingénieurs logiciels développent un moyen d’exécuter des modèles de langage d’IA sans multiplication matricielle (26 juin 2024) récupéré le 26 juin 2024 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.