Apple poursuit discrètement ses travaux de recherche en IA générative appliquée à la 3D. Des chercheurs de la marque pommée viennent de présenter LiTo (pour Surface Light Field Tokenization), une méthode capable de reconstruire un objet en trois dimensions à partir d’une image unique, tout en préservant un point souvent négligé, soit la cohérence des effets lumineux lorsque l’on change d’angle de vue.

La 3D, oui… mais avec des rendus crédibles

De nombreux systèmes savent déjà estimer une géométrie approximative, ou générer une apparence “diffuse” (indépendante du point de vue). Là où LiTo veut aller plus loin, c’est sur l’apparence dépendante de la vue : reflets spéculaires, brillances, et effets de type Fresnel, essentiels pour rendre crédibles le métal, le verre ou les surfaces vernies. En clair, l’objet ne doit pas « changer de matière » quand on le tourne.

Lito Trellis comparaison

Une représentation 3D en espace « latent »

Le principe repose sur une représentation en espace latent : au lieu de mémoriser chaque pixel, le modèle compresse les informations clés de la forme et de la lumière dans un ensemble de vecteurs. Un encodeur produit ce résumé mathématique, puis un décodeur reconstruit l’objet en 3D et la façon dont la lumière se comporte selon l’orientation.

Entraînement : multivues et conditions d’éclairage

Pour apprendre, LiTo a été entraîné sur des milliers d’objets rendus depuis environ 150 angles et sous trois conditions d’éclairage. Ensuite, plutôt que d’ingérer toutes les vues à chaque fois, le système prélève des sous-échantillons aléatoires de ce “champ lumineux” de surface et apprend à reconstituer l’ensemble.

À terme, ce type de modèle peut intéresser la création 3D (jeux, AR/VR), l’e-commerce (visualisation produit), ou la capture d’objets depuis une simple photo. Reste à savoir quand ces briques de recherche franchiront le pas vers des outils grand public intégrés à l’écosystème Apple…