IA : Apple dévoilera 14 recherches de pointe juste avant la WWDC 2026
À quelques jours de la WWDC, Apple prépare une prise de parole très technique sur l’intelligence artificielle. La marque présentera 14 travaux de recherche lors de la conférence IEEE/CVF Computer Vision and Pattern Recognition 2026, organisée du 3 au 7 juin au Colorado Convention Center de Denver.
Vision par ordinateur, génération d’images et IA multimodale
Le CVPR est l’un des rendez-vous majeurs de la recherche en vision par ordinateur. Apple y sponsorise l’événement et y mettra en avant des travaux couvrant plusieurs domaines stratégiques : génération et édition d’images, compréhension vidéo, géométrie 4D, compression d’image, raisonnement spatial, compréhension audio-visuelle et modèles multimodaux.

Parmi les études annoncées figurent notamment Pico-Banana-400K, un jeu de données massif pour l’édition d’images guidée par texte, UniGen-1.5, consacré à l’amélioration de la génération d’images, ou encore VSAS-Bench, pensé pour évaluer en temps réel les assistants visuels en streaming.
Des indices sur les futurs usages Apple
Certains travaux semblent directement reliés aux futures fonctions logicielles d’Apple. L’étude sur l’annotation automatique de la langue des signes sera présentée dans le cadre de l’atelier Generative AI for Sign Language, animé par Colin Lea. Cette étude fait écho aux évolutions des fonctions d’accessibilité attendues avec iOS 27.
D’autres recherches, comme From Where Things Are to What They’re For, explorent la capacité des modèles multimodaux à comprendre non seulement la position des objets, mais aussi leur fonction. Ce type de modèles pourrait alimenter de nouvelles fonctions dans Siri, dans les AirPods équipés de caméras ou bien encore pour les capacités de reconnaissance en temps réel.
Apple travaille aussi sur la réduction des biais, l’évaluation des sorties structurées des modèles multimodaux, la génération de mouvements et la compréhension vidéo. À la veille de la WWDC du 8 juin, cette présence au CVPR montre clairement qu’Apple veut renforcer la crédibilité scientifique de sa stratégie IA. Reste à voir combien de ces recherches sortiront des laboratoires pour devenir des fonctions visibles dans les prochains iPhone, iPad, Macn Vision Pro ou futures Apple Glasses.

La liste complète des 14 travaux qui seront présentés :
– AMUSE : référentiel audio-visuel et cadre d’alignement pour la compréhension agentique de conversations à plusieurs intervenants
– AToken : un tokeniseur unifié pour la vision
– Bootstrapping Sign Language Annotations with Sign Language Models : amorçage d’annotations en langue des signes à l’aide de modèles de langue des signes
– DSO : optimisation par guidage direct pour l’atténuation des biais
– From Where Things Are to What They’re For : évaluer l’intelligence spatiale et fonctionnelle des grands modèles de langage multimodaux
– Learning Long-Term Motion Embeddings for Efficient Kinematics Generation : apprentissage de représentations de mouvements à long terme pour une génération cinématique efficace
– Pico-Banana-400K : un jeu de données à grande échelle pour l’édition d’images guidée par texte
– SO-Bench : évaluation structurelle des sorties des grands modèles de langage multimodaux
– STARFlow-V : modélisation générative vidéo de bout en bout avec flux normalisants
– TrajTok : l’apprentissage de jetons de trajectoire permet une meilleure compréhension vidéo
– UniGen-1.5 : amélioration de la génération et de l’édition d’images grâce à l’unification des récompenses en apprentissage par renforcement
– Velox : apprentissage de représentations de la géométrie 4D et de l’apparence
– VSAS-Bench : évaluation en temps réel des modèles d’assistants visuels en streaming
– What Matters in Practical Learned Image Compression : ce qui compte dans la compression d’image apprise appliquée en pratique
