Utiliser le langage pour donner aux robots une meilleure compréhension d’un monde ouvert
Imaginez que vous rendez visite à un ami à l’étranger et que vous regardez dans son réfrigérateur pour voir ce qui constituerait un excellent petit-déjeuner. De nombreux articles vous semblent initialement étrangers, chacun étant emballé dans un emballage et des conteneurs inconnus. Malgré ces distinctions visuelles, vous commencez à comprendre à quoi sert chacun et à les récupérer selon vos besoins.
Inspiré par la capacité des humains à manipuler des objets inconnus, un groupe du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT a conçu Feature Fields for Robotic Manipulation (F3RM), un système qui mélange des images 2D avec des caractéristiques de modèle de base dans des scènes 3D pour aider les robots à identifier et saisissez les objets à proximité. F3RM peut interpréter les invites linguistiques ouvertes des humains, ce qui rend la méthode utile dans les environnements réels contenant des milliers d’objets, comme les entrepôts et les ménages.
F3RM offre aux robots la possibilité d’interpréter des invites de texte ouvertes en langage naturel, aidant ainsi les machines à manipuler des objets. En conséquence, les machines peuvent comprendre les demandes moins spécifiques des humains tout en accomplissant la tâche souhaitée. Par exemple, si un utilisateur demande au robot de « ramasser une grande tasse », le robot peut localiser et saisir l’élément qui correspond le mieux à cette description.
“Créer des robots capables de se généraliser dans le monde réel est incroyablement difficile”, déclare Ge Yang, postdoctorant à l’Institut d’IA pour l’intelligence artificielle et les interactions fondamentales de la National Science Foundation et au MIT CSAIL. “Nous voulons vraiment comprendre comment faire cela, donc avec ce projet, nous essayons de pousser pour un niveau agressif de généralisation, de seulement trois ou quatre objets à tout ce que nous trouvons dans le Stata Center du MIT. Nous voulions apprendre à créer des robots aussi flexibles que nous, puisque nous pouvons saisir et placer des objets même si nous ne les avons jamais vus auparavant.
Apprendre « où est où en regardant »
La méthode pourrait aider les robots à sélectionner des articles dans de grands centres de distribution, avec un encombrement et une imprévisibilité inévitables. Dans ces entrepôts, les robots reçoivent souvent une description de l’inventaire qu’ils doivent identifier. Les robots doivent faire correspondre le texte fourni à un objet, quelles que soient les variations d’emballage, afin que les commandes des clients soient expédiées correctement.
Par exemple, les centres de distribution des principaux détaillants en ligne peuvent contenir des millions d’articles, dont beaucoup n’auront jamais été rencontrés auparavant par un robot. Pour fonctionner à une telle échelle, les robots doivent comprendre la géométrie et la sémantique de différents objets, certains se trouvant dans des espaces restreints. Grâce aux capacités avancées de perception spatiale et sémantique de F3RM, un robot pourrait devenir plus efficace pour localiser un objet, le placer dans une poubelle, puis l’envoyer pour emballage. En fin de compte, cela aiderait les ouvriers des usines à expédier les commandes des clients plus efficacement.
“Une chose qui surprend souvent les gens avec F3RM est que le même système fonctionne également à l’échelle d’une pièce et d’un bâtiment, et peut être utilisé pour créer des environnements de simulation pour l’apprentissage des robots et de grandes cartes”, explique Yang. “Mais avant d’étendre ce travail, nous voulons d’abord que ce système fonctionne très rapidement. De cette façon, nous pouvons utiliser ce type de représentation pour des tâches de contrôle robotique plus dynamiques, si possible en temps réel, afin que les robots qui gèrent plus les tâches dynamiques peuvent l’utiliser pour la perception.
L’équipe du MIT note que la capacité de F3RM à comprendre différentes scènes pourrait le rendre utile dans les environnements urbains et domestiques. Par exemple, cette approche pourrait aider les robots personnalisés à identifier et à récupérer des objets spécifiques. Le système aide les robots à comprendre leur environnement, à la fois physiquement et perceptuellement.
“La perception visuelle a été définie par David Marr comme le problème de savoir” ce qui se trouve où en regardant “”, explique l’auteur principal Phillip Isola, professeur agrégé de génie électrique et d’informatique au MIT et chercheur principal du CSAIL.
“Les modèles de base récents sont devenus très efficaces pour savoir ce qu’ils regardent ; ils peuvent reconnaître des milliers de catégories d’objets et fournir des descriptions textuelles détaillées des images. Dans le même temps, les champs de radiance sont devenus très efficaces pour représenter où se trouvent les éléments dans une scène. La combinaison de ces deux approches peut créer une représentation de ce qui se trouve où en 3D, et ce que notre travail montre, c’est que cette combinaison est particulièrement utile pour les tâches robotiques, qui nécessitent la manipulation d’objets en 3D.
Créer un « jumeau numérique »
F3RM commence à comprendre son environnement en prenant des photos avec une perche à selfie. La caméra montée prend 50 images dans différentes poses, ce qui lui permet de créer un champ de radiance neuronale (NeRF), une méthode d’apprentissage en profondeur qui prend des images 2D pour construire une scène 3D. Ce collage de photos RVB crée un « jumeau numérique » de son environnement sous la forme d’une représentation à 360 degrés de ce qui se trouve à proximité.
En plus d’un champ de radiance neuronale très détaillé, F3RM crée également un champ de fonctionnalités pour augmenter la géométrie avec des informations sémantiques. Le système utilise CLIP, un modèle de base de vision formé sur des centaines de millions d’images pour apprendre efficacement les concepts visuels. En reconstruisant les fonctionnalités 2D CLIP pour les images prises par la perche à selfie, F3RM élève efficacement les fonctionnalités 2D dans une représentation 3D.
Garder les choses ouvertes
Après avoir reçu quelques démonstrations, le robot applique ses connaissances en géométrie et en sémantique pour saisir des objets qu’il n’a jamais rencontrés auparavant. Une fois qu’un utilisateur soumet une requête textuelle, le robot recherche dans l’espace des saisies possibles pour identifier celles les plus susceptibles de réussir à récupérer l’objet demandé par l’utilisateur. Chaque option potentielle est notée en fonction de sa pertinence par rapport à l’invite, de sa similitude avec les démonstrations sur lesquelles le robot a été formé et de ses éventuelles collisions. La maîtrise ayant obtenu le score le plus élevé est ensuite choisie et exécutée.
Pour démontrer la capacité du système à interpréter les demandes ouvertes des humains, les chercheurs ont incité le robot à récupérer Baymax, un personnage du « Big Hero 6 » de Disney. Bien que F3RM n’ait jamais été directement formé pour ramasser un jouet du super-héros de dessin animé, le robot a utilisé sa conscience spatiale et ses caractéristiques de langage visuel des modèles de base pour décider quel objet saisir et comment le ramasser.
F3RM permet également aux utilisateurs de spécifier quel objet ils souhaitent que le robot gère à différents niveaux de détail linguistique. Par exemple, s’il y a une tasse en métal et une tasse en verre, l’utilisateur peut demander au robot la « tasse en verre ». Si le robot voit deux tasses en verre et que l’une d’elles est remplie de café et l’autre de jus, l’utilisateur peut demander la « tasse en verre avec café ». Les fonctionnalités du modèle de base intégrées dans le champ de fonctionnalités permettent ce niveau de compréhension ouverte.
“Si je montrais à une personne comment saisir une tasse par le rebord, elle pourrait facilement transférer ces connaissances pour ramasser des objets ayant des géométries similaires, comme des bols, des verres à mesurer ou même des rouleaux de ruban adhésif. Pour les robots, atteindre ce niveau d’adaptabilité a été assez difficile”, déclare le doctorat du MIT. étudiant, affilié au CSAIL et co-auteur principal William Shen.
“F3RM combine la compréhension géométrique avec la sémantique des modèles de base formés sur des données à l’échelle Internet pour permettre ce niveau de généralisation agressive à partir d’un petit nombre de démonstrations seulement.”
L’article « Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation » est publié sur le arXiv serveur de préimpression.
Plus d’information:
William Shen et al, Les champs de fonctionnalités distillés permettent une manipulation guidée par le langage en quelques prises de vue, arXiv (2023). DOI : 10.48550/arxiv.2308.07931
arXiv
Fourni par le Massachusetts Institute of Technology
Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.
Citation: Utiliser le langage pour donner aux robots une meilleure compréhension d’un monde ouvert (2 novembre 2023) récupéré le 2 novembre 2023 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.