Un outil de test de référence pour les assistants généraux en IA
Une équipe de chercheurs affiliés aux startups d'IA Gen AI, Meta, AutoGPT, HuggingFace et Fair Meta, a développé un outil de référence destiné aux fabricants d'assistants d'IA, en particulier ceux qui fabriquent des produits basés sur un grand modèle de langage, pour tester leurs applications comme étant potentiellement artificielles. Applications d'intelligence générale (AGI). Ils ont rédigé un article décrivant leur outil, qu'ils ont baptisé GAIA, et comment il peut être utilisé. L'article est publié sur le arXiv serveur de préimpression.
Au cours de la dernière année, les chercheurs dans le domaine de l’IA ont débattu de la capacité des systèmes d’IA, tant en privé que sur les réseaux sociaux. Certains ont suggéré que les systèmes d’IA étaient très proches de l’AGI, tandis que d’autres ont suggéré que le contraire était beaucoup plus proche de la vérité. De tels systèmes, tous s’accordent à le dire, égaleront et même dépasseront l’intelligence humaine à un moment donné. La seule question est quand.
Dans ce nouvel effort, l'équipe de recherche note que pour parvenir à un consensus, si de véritables systèmes AGI émergent, un système d'évaluation doit être en place pour mesurer leur niveau d'intelligence les uns par rapport aux autres et par rapport aux humains. Un tel système, soulignent-ils en outre, devrait commencer par un point de référence, et c'est ce qu'ils proposent dans leur document.
Le benchmark créé par l'équipe consiste en une série de questions posées à une IA potentielle, avec des réponses comparées à celles fournies par un ensemble aléatoire d'humains. En créant le benchmark, l’équipe s’est assurée que les questions n’étaient pas des requêtes typiques de l’IA, pour lesquelles les systèmes d’IA ont tendance à obtenir de bons résultats.
Au lieu de cela, les questions qu’ils posent ont tendance à être assez faciles à répondre pour un humain mais difficiles pour un ordinateur. Dans de nombreux cas, trouver des réponses aux questions formulées par les chercheurs impliquait de passer par plusieurs étapes de travail et/ou de « réflexion ». À titre d'exemple, ils pourraient poser une question spécifique à quelque chose trouvé sur un site Web spécifique, comme : “Dans quelle mesure la teneur en matières grasses d'une pinte de crème glacée donnée est-elle supérieure ou inférieure, selon les normes de l'USDA, telles que rapportées par Wikipédia ?”
L'équipe de recherche a testé les produits d'IA avec lesquels elle travaille et a constaté qu'aucun d'entre eux n'était près de dépasser la référence, ce qui suggère que l'industrie n'est peut-être pas aussi proche du développement d'une véritable AGI que certains le pensent.
Plus d'information:
Grégoire Mialon et al, GAIA : une référence pour les Assistants Généraux IA, arXiv (2023). DOI : 10.48550/arxiv.2311.12983
arXiv
© 2023 Réseau Science X
Citation: Des chercheurs en IA présentent GAIA : un outil de test de référence pour les assistants généraux en IA (1er décembre 2023) récupéré le 1er décembre 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.