Apple dévoile ses avancées en intelligence artificielle multimodale à l’ICCV 2025
Apple va frapper fort lors de la conférence internationale sur la vision par ordinateur (ICCV 2025) qui sera organisée du 19 au 23 octobre à Honolulu. La firme de Cupertino y présentera une série impressionnante de travaux de recherche en intelligence artificielle, confirmant ainsi sa volonté d’intégrer des modèles multimodaux de pointe dans son écosystème, de l’iPhone au Vision Pro.
Des modèles multimodaux et génératifs au cœur de la stratégie
Parmi les publications les plus remarquées, Apple a introduit STIV, un modèle capable de générer des vidéos à partir d’images et de texte, ouvrant la voie à des outils créatifs inédits pour l’AR/VR. UniVG, un modèle unifié de diffusion, permet à la fois la génération et l’édition d’images, ce qui annonce des évolutions majeures pour Final Cut Pro ou Photos. D’autres recherches, comme MM-Spatial, explorent la compréhension 3D des modèles de langage, tandis que ETVA propose un nouveau standard pour évaluer la cohérence entre texte et vidéo générée.
Vers une IA plus interactive et intégrée
Avec UINavBench, la firme de Cupertino introduit un cadre d’évaluation pour les agents numériques capables d’interagir avec des interfaces logicielles — une avancée cruciale pour Siri ou le Vision Pro. Enfin, une étude révèle que les modèles de diffusion actuels excellent dans l’apprentissage contextuel visuel, et ce sans nécessiter de réentraînement explicite. Enfin, lors d’un atelier dédié, le Dr. C. Thomas, responsable de la recherche appliquée en apprentissage automatique chez Apple, a mis en avant les applications industrielles de ces innovations. Ces nombreux travaux confirment qu’Apple prépare une nouvelle génération d’IA locale, multimodale et sécurisée, destinée avant tout à intégrer ses futures gammes de produits. Apple Intelligence ne fait pas tout… et fort heureusement pour Apple…