Un nouvel algorithme pour aider les robots à pratiquer des compétences de manière autonome pour s’adapter à des environnements inconnus
L’expression « c’est en forgeant qu’on devient forgeron » est généralement réservée aux humains, mais c’est aussi une excellente maxime pour les robots nouvellement déployés dans des environnements inconnus.
Imaginez un robot arrivant dans un entrepôt. Il est équipé des compétences pour lesquelles il a été formé, comme placer un objet, et doit maintenant choisir des articles sur une étagère qu’il ne connaît pas. Au début, la machine a du mal à s’y retrouver, car elle doit se familiariser avec son nouvel environnement. Pour s’améliorer, le robot devra comprendre quelles compétences au sein d’une tâche globale il doit améliorer, puis spécialiser (ou paramétrer) cette action.
Un humain sur place pourrait programmer le robot pour optimiser ses performances, mais des chercheurs du Computer Science and Artificial Intelligence Laboratory (CSAIL) du MIT et de l’AI Institute ont développé une alternative plus efficace. Présenté lors de la conférence Robotics: Science and Systems le mois dernier, leur algorithme « Estimation, Extrapolation et Situation » (EES) permet à ces machines de s’entraîner de manière autonome, ce qui pourrait les aider à s’améliorer dans des tâches utiles dans les usines, les ménages et les hôpitaux.
L’étude est publiée sur le arXiv serveur de préimpression.
Évaluer la situation
Pour aider les robots à s’améliorer dans des activités telles que le balayage des sols, EES utilise un système de vision qui localise et suit l’environnement de la machine. Ensuite, l’algorithme évalue la fiabilité avec laquelle le robot exécute une action (comme le balayage) et s’il vaut la peine de s’entraîner davantage. EES prévoit dans quelle mesure le robot pourrait effectuer la tâche globale s’il affine cette compétence particulière, et enfin, il s’entraîne. Le système de vision vérifie ensuite si cette compétence a été correctement exécutée après chaque tentative.
L’EES pourrait s’avérer utile dans des endroits comme un hôpital, une usine, une maison ou un café. Par exemple, si vous voulez qu’un robot nettoie votre salon, il aurait besoin d’aide pour pratiquer des compétences comme le balayage. Selon Nishanth Kumar SM ’24 et ses collègues, l’EES pourrait aider ce robot à s’améliorer sans intervention humaine, en utilisant seulement quelques essais pratiques.
« En nous lançant dans ce projet, nous nous sommes demandé si cette spécialisation serait possible dans une quantité raisonnable d’échantillons sur un vrai robot », explique Kumar, co-auteur principal d’un article décrivant le travail, doctorant en génie électrique et informatique et affilié au CSAIL.
« Nous disposons désormais d’un algorithme qui permet aux robots de s’améliorer de manière significative dans des compétences spécifiques dans un laps de temps raisonnable avec des dizaines ou des centaines de points de données, une amélioration par rapport aux milliers ou aux millions d’échantillons requis par un algorithme d’apprentissage par renforcement standard. »
Voir Balayage ponctuel
Le talent d’EES pour l’apprentissage efficace est devenu évident lors de sa mise en œuvre sur le quadrupède Spot de Boston Dynamics lors d’essais de recherche à l’AI Institute. Le robot, qui a un bras attaché à son dos, a réalisé des tâches de manipulation après quelques heures d’entraînement. Lors d’une démonstration, le robot a appris à placer en toute sécurité une balle et un anneau sur une table inclinée en environ trois heures.
Dans un autre cas, l’algorithme a permis à la machine de mieux trier les jouets dans une poubelle en deux heures environ. Ces deux résultats semblent constituer une amélioration par rapport aux systèmes précédents, qui auraient probablement pris plus de 10 heures par tâche.
« Notre objectif était de permettre au robot de recueillir sa propre expérience afin qu’il puisse mieux choisir les stratégies qui fonctionneront bien dans son déploiement », explique le co-auteur principal Tom Silver SM ’20, Ph.D. ’24, ancien élève en génie électrique et informatique (EECS) et affilié au CSAIL qui est maintenant professeur adjoint à l’Université de Princeton.
« En nous concentrant sur ce que sait le robot, nous avons cherché à répondre à une question clé : dans la bibliothèque de compétences dont dispose le robot, laquelle serait la plus utile à pratiquer dès maintenant ? »
L’EES pourrait éventuellement contribuer à rationaliser la pratique autonome des robots dans de nouveaux environnements de déploiement, mais pour l’instant, il comporte quelques limitations. Pour commencer, ils ont utilisé des tables basses, ce qui permettait au robot de voir plus facilement ses objets.
Kumar et Silver ont également imprimé en 3D un manche amovible qui permettait à Spot de saisir plus facilement la brosse. Le robot n’a pas détecté certains éléments et a identifié des objets au mauvais endroit, les chercheurs ont donc compté ces erreurs comme des échecs.
Donner des devoirs aux robots
Les chercheurs notent que les vitesses de pratique issues des expériences physiques pourraient être encore accélérées à l’aide d’un simulateur. Au lieu de travailler physiquement sur chaque compétence de manière autonome, le robot pourrait éventuellement combiner pratique réelle et virtuelle. Ils espèrent rendre leur système plus rapide avec moins de latence, en concevant EES pour surmonter les retards d’imagerie que les chercheurs ont rencontrés. À l’avenir, ils pourraient étudier un algorithme qui raisonne sur des séquences de tentatives de pratique au lieu de planifier les compétences à perfectionner.
« Permettre aux robots d’apprendre par eux-mêmes est à la fois incroyablement utile et extrêmement difficile », explique Danfei Xu, professeur adjoint à la School of Interactive Computing de Georgia Tech et chercheur scientifique chez NVIDIA AI, qui n’a pas participé à ces travaux.
« À l’avenir, les robots domestiques seront vendus à toutes sortes de ménages et devront effectuer une grande variété de tâches. Nous ne pouvons pas programmer à l’avance tout ce qu’ils doivent savoir, il est donc essentiel qu’ils puissent apprendre sur le tas. Cependant, laisser les robots explorer et apprendre sans aide peut être très lent et peut entraîner des conséquences imprévues.
« Les recherches menées par Silver et ses collègues présentent un algorithme qui permet aux robots de mettre en pratique leurs compétences de manière autonome et structurée. Il s’agit d’un grand pas vers la création de robots domestiques capables d’évoluer et de s’améliorer en permanence. »
Les co-auteurs de Silver et Kumar sont les chercheurs de l’AI Institute Stephen Proulx et Jennifer Barry, ainsi que quatre membres du CSAIL : Linfeng Zhao, doctorant et chercheur invité de l’université Northeastern, Willie McClinton, doctorant au MIT EECS, et Leslie Pack Kaelbling et Tomás Lozano-Pérez, professeurs au MIT EECS. Leurs travaux ont été soutenus en partie par l’AI Institute, la National Science Foundation des États-Unis, le US Air Force Office of Scientific Research, le US Office of Naval Research, le US Army Research Office et le MIT Quest for Intelligence, avec des ressources de calcul haute performance du MIT SuperCloud et du Lincoln Laboratory Supercomputing Center.
Plus d’information:
Nishanth Kumar et al., C’est en forgeant qu’on devient forgeron : planifier l’apprentissage des politiques relatives aux paramètres des compétences, arXiv (2024). DOI : 10.48550/arxiv.2402.15025
arXiv
Fourni par le Massachusetts Institute of Technology
Citation:Un nouvel algorithme pour aider les robots à pratiquer des compétences de manière indépendante pour s’adapter à des environnements inconnus (2024, 8 août) récupéré le 8 août 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.