Le modèle IA génère instantanément une image 3D à partir d’un échantillon 2D

by alfilali 13 November 2023

L’architecture globale de LRM, un cadre d’encodeur-décodeur basé sur un transformateur entièrement différenciable pour la reconstruction d’image unique en NeRF. LRM applique un modèle de vision pré-entraîné (DINO) pour coder l’image d’entrée (Sec. 3.1), où les caractéristiques de l’image sont projetées sur une représentation triplan 3D par un grand décodeur de transformateur via une attention croisée (Sec. 3.2), suivi de un perceptron multicouche pour prédire la couleur et la densité des points pour le rendu volumétrique (Sec. 3.3). L’ensemble du réseau est formé de bout en bout sur environ un million de données 3D (Sec. 4.1) avec de simples pertes de reconstruction d’image (Sec. 3.4). Crédit: arXiv (2023). DOI : 10.48550/arxiv.2311.04400

Dans le monde émergent de l’informatique à grande échelle, ce n’était qu’une question de temps avant qu’une réalisation révolutionnaire ne soit sur le point de bouleverser le domaine des visualisations 3D.

Adobe Research et l’Université nationale australienne (ANU) ont annoncé le premier modèle d’intelligence artificielle capable de générer des images 3D à partir d’une seule image 2D.

Dans le cadre d’un développement qui transformera la création de modèles 3D, les chercheurs affirment que leur nouvel algorithme, qui s’entraîne sur des échantillons massifs d’images, peut générer de telles images 3D en quelques secondes.

Yicong Hong, stagiaire chez Adobe et ancien étudiant diplômé du Collège d’ingénierie, d’informatique et de cybernétique de l’ANU, a déclaré que leur grand modèle de reconstruction (LRM) est basé sur un réseau neuronal hautement évolutif contenant un million d’ensembles de données avec 500 millions de paramètres. Ces ensembles de données comprennent des images, des formes 3D et des vidéos.

“Cette combinaison d’un modèle de grande capacité et de données d’entraînement à grande échelle permet à notre modèle d’être hautement généralisable et de produire des reconstructions 3D de haute qualité à partir de diverses entrées de tests”, a déclaré Hong, l’auteur principal d’un rapport sur le projet.

“Au meilleur de nos connaissances, (notre) LRM est le premier modèle de reconstruction 3D à grande échelle.”

On peut s’attendre à ce que les systèmes de réalité augmentée et de réalité virtuelle, les jeux, l’animation cinématographique et le design industriel capitalisent sur cette technologie transformatrice.

Les premiers logiciels d’imagerie 3D ne fonctionnaient bien que dans des catégories de sujets spécifiques avec des formes préétablies. Hong a expliqué que des progrès ultérieurs dans la génération d’images ont été réalisés grâce à des programmes tels que DALL-E et Stable Diffusion, qui “ont exploité la remarquable capacité de généralisation des modèles de diffusion 2D pour permettre des vues multiples”. Cependant, les résultats de ces programmes étaient limités aux modèles génératifs 2D pré-entraînés.

D’autres systèmes ont utilisé l’optimisation par forme pour obtenir des résultats impressionnants, mais ils sont « souvent lents et peu pratiques », selon Hong.

L’évolution des modèles de langage naturel au sein de réseaux de transformateurs massifs qui utilisaient des données à grande échelle pour maximiser les tâches de prédiction du mot suivant, a déclaré Hong, a encouragé son équipe à se poser la question : “Est-il possible d’apprendre une 3D générique avant de reconstruire un objet à partir de une seule image ?”

Leur réponse a été « Oui ».

“LRM peut reconstruire des formes 3D haute fidélité à partir d’une large gamme d’images capturées dans le monde réel, ainsi que d’images créées par des modèles génératifs”, a déclaré Hong. “LRM est également une solution très pratique pour les applications en aval puisqu’il peut produire une forme 3D en seulement cinq secondes sans post-optimisation.”

Le succès du programme réside dans sa capacité à s’appuyer sur sa base de données de millions de paramètres d’image et à prédire un champ de radiance neuronale (NeRF). C’est la capacité de générer des images 3D réalistes basées uniquement sur des images 2D, même si ces images sont en basse résolution. NeRF possède des capacités de synthèse d’images, de détection d’objets et de segmentation d’images.

Il y a 60 ans, était créé le premier programme informatique permettant aux utilisateurs de générer et de manipuler des formes 3D simples. Sketchpad, conçu par Ivan Sutherland dans le cadre de son doctorat. thèse au MIT, disposait d’un total de 64 Ko de mémoire.

Au fil des décennies, les programmes 3D se sont développés à pas de géant avec des programmes tels qu’AutoCAD, 3D Studio, SoftImage 3D, RenderMan et Maya.

L’article de Hong, « LRM : Large Reconstruction Model for Single Image to 3D », a été téléchargé sur le serveur de préimpression. arXiv le 8 novembre.

Plus d’information:
Yicong Hong et al, LRM : Grand modèle de reconstruction d’une image unique en 3D, arXiv (2023). DOI : 10.48550/arxiv.2311.04400

Page du projet : yiconghong.me/LRM/

Informations sur la revue :
arXiv

Citation: Le modèle IA génère instantanément une image 3D à partir d’un échantillon 2D (13 novembre 2023) récupéré le 13 novembre 2023 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Le modèle IA génère instantanément une image 3D à partir d’un échantillon 2D

Leave a Reply Cancel reply

Get The Post

Our Sites

Quick Links

Follow Us

Subscribe

Le modèle IA génère instantanément une image 3D à partir d’un échantillon 2D

Share This:

Leave a Reply Cancel reply

Get The Post

Our Sites

Quick Links

Follow Us

Subscribe