Le cadre d’apprentissage par imitation améliore les compétences de loco-manipulation des robots quadrupèdes dans la nature
Les robots quadrupèdes intégrant des manipulateurs pourraient potentiellement accomplir des tâches impliquant la manipulation d’objets tout en se déplaçant rapidement dans leur environnement. Celles-ci incluent des tâches telles que ramasser les déchets dans la maison, collecter des objets spécifiques et les apporter aux humains ou déposer des objets cibles à des endroits spécifiques.
De nombreuses approches conçues pour former des robots à accomplir avec succès ces tâches reposent sur l’apprentissage par imitation. Cela signifie que les algorithmes planifiant les actions des robots apprennent des politiques qui permettraient au robot d’accomplir une tâche en traitant des données de démonstration montrant comment les agents ont accompli cette tâche.
Bien que certaines méthodes existantes pour entraîner des robots à des tâches impliquant à la fois la locomotion et la manipulation d’objets aient donné des résultats prometteurs dans les simulations, elles ne fonctionnent souvent pas aussi bien « dans la nature ». Cela signifie essentiellement qu’ils ne permettent pas aux robots de bien généraliser diverses tâches lorsqu’ils sont testés dans des environnements réels.
Des chercheurs de l’UC San Diego ont récemment introduit WildLMa, un nouveau cadre qui pourrait améliorer les compétences de loco-manipulation à long terme des robots quadrupèdes dans la nature. Ce cadre, décrit dans un document sur le arXiv serveur de préimpression, comporte trois composants qui peuvent collectivement renforcer la généralisabilité des compétences acquises via l’apprentissage par imitation.
“Les progrès rapides dans l’apprentissage par imitation ont permis aux robots d’apprendre à partir de démonstrations humaines”, a déclaré Yuchen Song, auteur du journal, à Tech Xplore.
“Cependant, ces systèmes se concentrent souvent sur des compétences isolées et spécifiques et ont du mal à s’adapter à de nouveaux environnements. Notre travail vise à surmonter cette limitation en entraînant des robots à acquérir des compétences généralisables à l’aide de modèles de vision-langage (VLM), puis en tirant parti des grands modèles de langage ( LLM) pour enchaîner ces compétences en séquences permettant aux robots d’accomplir des tâches complexes.
WildLMa, le cadre conçu par Song et ses collègues, fournit tout d’abord un moyen simple de collecter des données de démonstration d’experts. Ceci est réalisé grâce à un système de téléopération basé sur la réalité virtuelle (VR), dans lequel les agents humains peuvent exploiter des algorithmes de contrôle de robot pré-entraînés et utiliser une seule main pour contrôler tous les mouvements du corps du robot.
“Ces compétences pré-entraînées sont ensuite améliorées par des LLM, qui décomposent les tâches complexes en étapes gérables, similaires à la façon dont un humain pourrait aborder un défi (par exemple, “choisir, naviguer, se placer”)”, a expliqué Song. “Le résultat est un robot capable d’exécuter de longues tâches en plusieurs étapes de manière efficace et intuitive.”
Un trait caractéristique de l’approche introduite par cette équipe de chercheurs est qu’elle intègre également des mécanismes d’attention. Ces mécanismes permettent aux robots de se concentrer sur un objet cible pendant qu’ils accomplissent des tâches spécifiques.
“L’intégration des mécanismes d’attention joue un rôle essentiel en rendant les compétences du robot plus adaptables et généralisables”, a déclaré Song. “Les applications potentielles de WildLMa incluent les tâches ménagères pratiques, telles que ranger ou récupérer des objets. Nous avons déjà démontré certaines de ces capacités.”
Song et ses collègues avaient déjà démontré le potentiel de leur cadre dans une série d’expériences réelles, au cours desquelles ils ont réussi à entraîner un robot à quatre pattes pour accomplir diverses tâches. Ces tâches comprenaient le nettoyage des déchets dans les couloirs et les espaces extérieurs de l’UC San Diego, la collecte des livraisons de nourriture et la réorganisation des articles sur une étagère.
“Bien que notre système fonctionne bien, il peut toujours être affecté par des perturbations inattendues, telles que des déplacements de personnes”, a ajouté Song. “Nos prochaines étapes consisteront à rendre le système plus robuste dans des environnements dynamiques. À terme, notre objectif est de créer des robots assistants domestiques abordables et accessibles à tous.”
Plus d’informations :
Ri-Zhao Qiu et al, WildLMa : Manipulation de locomotives à long horizon dans la nature, arXiv (2024). DOI : 10.48550/arxiv.2411.15131
Plus de vidéos disponibles ici :
arXiv
© 2024 Réseau Science X
Citation: Le cadre d’apprentissage par imitation améliore les compétences de loco-manipulation des robots quadrupèdes dans la nature (6 décembre 2024) récupéré le 7 décembre 2024 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.