Gaudi : Apple dévoile un générateur d’images 3D à partir de textes
Les générateurs d’images à partir de textes sont l’une des grosses tendances de l’IA contemporaine : Google avec Imagen, Open AI et son DALL-E, Meta ont dévoilé chacun leurs solutions dans ce domaine prometteur. Apple semblait jusqu’ici se maintenir à l’écart de ses recherches de pointe, mais comme souvent, c’est quand on imagine que la firme de Cupertino a trois trains de retard dans un secteur qu’elle sort un truc de sa boite à malice. C’est une nouvelle fois le cas avec Gaudi, un générateur d’images 3D (toujours à partir de textes) qui a la particularité de générer de véritables scènes 3D dans lesquelles on peut naviguer, ce qui n’est pas possible avec les rendus d’Imagen ou de DALL-E.
Gaudi, dont le nom a été choisi en référence au célèbre architecte espagnol, n’est pas un brevet, c’est un outil déjà fonctionnel basée sur de l’IA neuronale et du machine learning, qui se place d’emblée comme le résultat-référence d’un long travail de recherche. Le logiciel permet de générer des images 3D dont le résultat peut être ou non encadré par des critères spécifiques (« la hauteur des bâtiments ne doit pas excéder 20 mètres) ». Et bien évidemment, on imagine sans peine l’apport d’un tel outil dans la conception de scènes 3D destinées à la AR/VR/XR.
L’abstract du travail de recherche sur Gaudi :
« Nous présentons GAUDI, un modèle génératif capable de capturer la distribution de scènes 3D complexes et réalistes qui peuvent être rendues de manière immersive à partir d’une caméra en mouvement. Nous abordons ce problème difficile avec une approche évolutive mais puissante, où nous optimisons d’abord une représentation latente qui démêle champs de rayonnement et poses de caméra. Cette représentation latente est ensuite utilisée pour apprendre un modèle génératif qui permet la génération inconditionnelle et conditionnelle de scènes 3D.
Notre modèle généralise les travaux antérieurs qui se concentrent sur des objets uniques en supprimant l’hypothèse selon laquelle la distribution de la pose de la caméra peut être partagée entre les échantillons. Nous montrons que GAUDI obtient des performances de pointe dans le cadre génératif inconditionnel sur plusieurs ensembles de données et permet la génération conditionnelle de scènes 3D en fonction de variables de conditionnement telles que des observations d’images clairsemées ou du texte décrivant la scène. »