L’imagerie synthétique établit une nouvelle barre en matière d’efficacité de la formation en IA
Les données sont le nouveau sol, et sur ce nouveau terrain fertile, les chercheurs du MIT plantent bien plus que de simples pixels. En utilisant des images synthétiques pour entraîner des modèles d’apprentissage automatique, une équipe de scientifiques a récemment surpassé les résultats obtenus à partir des méthodes traditionnelles d’entraînement « en images réelles ».
Au cœur de l’approche se trouve un système appelé StableRep, qui n’utilise pas seulement des images synthétiques ; il les génère via des modèles texte-image ultra-populaires comme Stable Diffusion. C’est comme créer des mondes avec des mots.
Alors, qu’y a-t-il dans la sauce secrète de StableRep ? Une stratégie appelée « apprentissage contrastif multi-positif ».
“Nous enseignons au modèle pour en apprendre davantage sur les concepts de haut niveau à travers le contexte et la variance, et pas seulement en lui fournissant des données”, explique Lijie Fan, Ph.D. au MIT. étudiant en génie électrique, affilié au Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL), chercheur principal sur les travaux actuellement affichés au arXiv serveur de préimpression.
“Lorsque plusieurs images, toutes générées à partir du même texte, toutes traitées comme des représentations de la même chose sous-jacente, le modèle plonge plus profondément dans les concepts derrière les images, par exemple l’objet, et pas seulement dans leurs pixels.”
Cette approche considère plusieurs images générées à partir d’invites de texte identiques comme des paires positives, fournissant des informations supplémentaires pendant la formation, ajoutant non seulement plus de diversité, mais spécifiant au système de vision quelles images sont similaires et lesquelles sont différentes. Remarquablement, StableRep a surpassé les prouesses des modèles de haut niveau formés sur des images réelles, tels que SimCLR et CLIP, dans de vastes ensembles de données.
« Même si StableRep contribue à atténuer les défis liés à l’acquisition de données dans le cadre de l’apprentissage automatique, il ouvre également la voie à une nouvelle ère de techniques de formation en IA. La capacité de produire sur commande des images synthétiques diverses et de haut calibre pourrait contribuer à réduire les dépenses et les ressources fastidieuses. ” dit Fan.
Le processus de collecte de données n’a jamais été simple. Dans les années 1990, les chercheurs devaient capturer manuellement des photographies pour assembler des ensembles de données sur les objets et les visages. Les années 2000 ont vu des individus parcourir Internet à la recherche de données. Cependant, ces données brutes et non conservées contenaient souvent des écarts par rapport aux scénarios du monde réel et reflétaient des préjugés sociétaux, présentant une vision déformée de la réalité.
La tâche consistant à nettoyer les ensembles de données grâce à l’intervention humaine est non seulement coûteuse, mais aussi extrêmement difficile. Imaginez, cependant, si cette collecte de données ardue pouvait être réduite à quelque chose d’aussi simple que l’émission d’une commande en langage naturel.
Un aspect essentiel du triomphe de StableRep est l’ajustement de « l’échelle de guidage » dans le modèle génératif, qui garantit un équilibre délicat entre la diversité et la fidélité des images synthétiques. Une fois affinées, les images synthétiques utilisées dans la formation de ces modèles auto-supervisés se sont révélées aussi efficaces, sinon plus, que les images réelles.
Pour aller plus loin, la supervision linguistique a été ajoutée au mélange, créant une variante améliorée : StableRep+. Lorsqu’il est entraîné avec 20 millions d’images synthétiques, StableRep+ a non seulement atteint une précision supérieure, mais a également affiché une efficacité remarquable par rapport aux modèles CLIP entraînés avec un nombre stupéfiant de 50 millions d’images réelles.
Pourtant, le chemin à parcourir n’est pas sans nids-de-poule. Les chercheurs abordent franchement plusieurs limitations, notamment la lenteur actuelle de la génération d’images, les inadéquations sémantiques entre les invites textuelles et les images résultantes, l’amplification potentielle des biais et la complexité de l’attribution des images, qu’il est impératif de résoudre pour les progrès futurs.
Un autre problème est que StableRep nécessite d’abord de former le modèle génératif sur des données réelles à grande échelle. L’équipe reconnaît que commencer avec des données réelles reste une nécessité ; cependant, lorsque vous disposez d’un bon modèle génératif, vous pouvez le réutiliser pour de nouvelles tâches, comme la formation de modèles de reconnaissance et de représentations visuelles.
L’équipe note qu’elle n’a pas contourné la nécessité de commencer avec des données réelles ; c’est juste qu’une fois que vous disposez d’un bon modèle génératif, vous pouvez le réutiliser pour de nouvelles tâches, comme la formation de modèles de reconnaissance et de représentations visuelles.
Bien que StableRep offre une bonne solution en réduisant la dépendance à l’égard de vastes collections d’images réelles, il met en évidence les préoccupations concernant les biais cachés dans les données non conservées utilisées pour ces modèles texte-image. Le choix des invites de texte, partie intégrante du processus de synthèse d’images, n’est pas entièrement exempt de préjugés, “ce qui indique le rôle essentiel d’une sélection méticuleuse du texte ou d’une éventuelle curation humaine”, explique Fan.
“Grâce aux derniers modèles de conversion texte-image, nous avons acquis un contrôle sans précédent sur la génération d’images, permettant de créer une large gamme de visuels à partir d’une seule saisie de texte. Cela surpasse la collection d’images du monde réel en termes d’efficacité et de polyvalence. Cela s’avère particulièrement utile. dans des tâches spécialisées, comme l’équilibrage de la variété d’images dans la reconnaissance à longue traîne, ce qui constitue un complément pratique à l’utilisation d’images réelles pour la formation”, explique Fan.
“Notre travail représente un pas en avant dans l’apprentissage visuel, vers l’objectif d’offrir des alternatives de formation rentables tout en soulignant la nécessité d’améliorer continuellement la qualité et la synthèse des données.”
“L’un des rêves de l’apprentissage génératif des modèles a longtemps été de pouvoir générer des données utiles pour la formation de modèles discriminants”, déclare David Fleet, chercheur chez Google DeepMind et professeur d’informatique à l’Université de Toronto, qui n’a pas participé à l’étude.
“Bien que nous ayons vu quelques signes de vie, le rêve est resté insaisissable, en particulier dans les domaines complexes à grande échelle comme les images haute résolution. Cet article fournit la preuve irréfutable, pour la première fois à ma connaissance, que le rêve est en train de devenir une réalité. Ils montrent que l’apprentissage contrasté à partir de quantités massives de données d’images synthétiques peut produire des représentations qui surpassent celles apprises à partir de données réelles à grande échelle, avec le potentiel d’améliorer une myriade de tâches de vision en aval.
Plus d’information:
Yonglong Tian et al, StableRep : Les images synthétiques provenant de modèles texte-image créent de solides apprenants en représentation visuelle, arXiv (2023). DOI : 10.48550/arxiv.2306.00984
arXiv
Fourni par le Massachusetts Institute of Technology
Citation: L’imagerie synthétique établit une nouvelle barre en matière d’efficacité de la formation en IA (20 novembre 2023) récupéré le 20 novembre 2023 sur
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.