DeepMind présente un robot capable de proposer des visites guidées contextuelles d’un immeuble de bureaux
Une équipe de roboticiens et de spécialistes de l’IA de DeepMind, filiale de Google, a présenté un robot capable de proposer des visites guidées contextuelles de ses bureaux. Ils ont publié un article décrivant leur travail, ainsi que des vidéos de démonstration, sur le site arXiv serveur de préimpression.
Les applications d’IA ont beaucoup évolué au cours de la dernière décennie, et des LLM tels que ChatGPT sont désormais connus des utilisateurs du monde entier. Dans ce nouvel effort, l’équipe de recherche a doté les robots RT-2 de capacités d’IA via Gemini 1.5 Pro et l’a utilisé pour permettre au robot d’effectuer des activités sophistiquées.
Le robot peut écouter la personne qu’il guide, analyser une demande et la traduire en comportement. Par exemple, un chercheur a demandé au robot de l’emmener dans un endroit du bureau où il pouvait écrire ou dessiner. Le robot a réfléchi à la demande pendant environ 30 secondes, puis a guidé la personne vers un endroit où un tableau blanc avait été fixé au mur dans l’un des bureaux.
Le robot est capable d’effectuer de telles tâches, expliquent les chercheurs, car son application Gemini 1.5 Pro a été formée pour comprendre la disposition de l’espace de travail de bureau de 850 mètres carrés en utilisant sa longue fenêtre de contexte pendant qu’elle collectait des données tout en regardant des vidéos d’emplacements dans le bureau.
Les chercheurs décrivent ces expériences d’apprentissage comme une navigation d’instructions multimodale avec des visites de démonstration : pendant que le robot regardait les vidéos, il était capable de traiter simultanément différentes parties du décor du bureau, lui permettant de générer des associations.
En ajoutant des fonctions de traitement de la voix et du texte ainsi que d’autres fonctions d’IA, l’équipe de DeepMind a également pu donner au robot la capacité d’effectuer un traitement inférentiel. Par exemple, un chercheur a demandé au robot s’il restait de sa boisson préférée dans le réfrigérateur. Le robot a remarqué qu’il y avait plusieurs canettes de Coca vides près de l’endroit où le chercheur était assis et a utilisé cette information pour deviner que le Coca était sa boisson préférée. Il s’est ensuite roulé jusqu’au réfrigérateur et a regardé à l’intérieur pour voir s’il y avait des canettes de Coca. Il s’est ensuite retourné et a rapporté ce qu’il avait trouvé.
Plus d’information:
Hao-Tien Lewis Chiang et al, Mobility VLA : Navigation d’instructions multimodales avec des VLM à contexte long et des graphes topologiques, arXiv (2024). DOI: 10.48550/arxiv.2407.07775
arXiv
© 2024 Réseau Science X
Citation: DeepMind présente un robot capable de proposer des visites guidées contextuelles d’un immeuble de bureaux (2024, 12 juillet) récupéré le 12 juillet 2024 à partir de
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.