Apple travaille sur l’IA visuelle : des images 2D transformées en scènes 3D en une seconde
Apple poursuit discrètement mais méthodiquement ses travaux en intelligence artificielle. Plusieurs publications scientifiques récentes mettent en lumière une stratégie claire : améliorer la compréhension des images, du langage et de la spatialisation, tout en conservant une forte exigence de qualité. Ces recherches s’inscrivent dans la continuité des fonctionnalités introduites avec iOS 26 et visionOS, notamment les scènes spatiales capables de donner de la profondeur à des photos classiques.
SHARP : passer de la 2D à la 3D en moins d’une seconde
Au cœur de ces avancées figure SHARP, un modèle d’IA open source capable de générer une scène 3D photoréaliste à partir d’une seule image 2D, et ce en moins d’une seconde (sur un GPU standard). Contrairement aux méthodes traditionnelles reposant sur des modèles polygonaux, SHARP utilise des représentations gaussiennes composées de millions de volumes ellipsoïdes. Résultat : une reconstruction rapide et étonnamment détaillée, bien que limitée aux éléments visibles de l’image d’origine (l’IA ne créée pas ce qu’elle ne voit pas).

Des limites connues, mais un potentiel évident
Les chercheurs reconnaissent certaines erreurs, notamment sur la profondeur ou les reflets complexes. Malgré ces faiblesses, SHARP illustre le potentiel d’une conversion instantanée vers la 3D, avec des applications évidentes pour la réalité augmentée et la création de contenus immersifs.

Évaluer et comprendre les images… et les langues
Apple a également présenté GIE-Bench, un cadre d’évaluation pour l’édition d’images guidée par texte, ainsi qu’IMPACT, une méthode destinée à tester la compréhension des langues morphologiquement complexes par les modèles d’IA. Ces outils permettent de mesurer précisément les forces et limites des systèmes actuels, y compris ceux d’Apple.
En multipliant ces travaux, la firme de Cupertino confirme son ambition principale qui est de bâtir une IA plus fiable, plus visuelle et mieux adaptée à la diversité des usages et des langues, au-delà des benchs et des simples démonstrations technologiques habituelles.

