Apple dévoile ses avancées en IA multimodale pour comprendre, générer et rechercher des images
Apple poursuit ses travaux de fond dans l’intelligence artificielle avec plusieurs études consacrées aux modèles de langage multimodaux, capables de traiter simultanément texte et images. Ces recherches illustrent la stratégie du groupe californien, déjà amorcée avec iOS 18, qui a introduit la génération d’images directement sur iPhone grâce à des modèles locaux.
Des recherches centrées sur l’image et le raisonnement visuel
Parmi les publications récentes figure un modèle baptisé DeepMMSearch-R1, conçu pour améliorer les recherches web à partir d’images. Les ingénieurs d’Apple partent d’un constat simple : les modèles existants échouent souvent à fournir des réponses précises lorsqu’une image contient plusieurs éléments ou nécessite une interprétation fine.

La particularité de DeepMMSearch-R1 réside dans sa capacité à recadrer automatiquement une image afin d’en isoler la partie pertinente. Une fois l’élément identifié, le modèle combine recherche visuelle et textuelle pour vérifier les informations et limiter les erreurs. Apple affirme que cette approche dépasse les performances des systèmes actuels reposant sur des agents de recherche classiques.

Manzano, un modèle unifié pour créer et analyser des images
Un autre projet, nommé Manzano, explore une voie complémentaire. Il s’agit d’un modèle multimodal capable à la fois de comprendre le contenu d’une image et d’en générer de nouvelles à partir de texte, sans sacrifier l’une de ces compétences. Contrairement à d’autres solutions du marché, Apple a opté pour un système de représentation visuelle unifié, réduisant les conflits entre génération et interprétation.

Les tests menés montrent que Manzano rivalise avec les références du secteur sur des tâches complexes, y compris l’édition d’images, le transfert de style ou la gestion de demandes volontairement contre-intuitives.

Ces travaux restent pour l’instant expérimentaux, mais ils laissent entrevoir de futures évolutions des services Apple. À terme, ces avancées pourraient enrichir Siri et les outils créatifs de l’écosystème, renforçant l’ambition d’Apple de proposer une intelligence artificielle intégrée, performante et respectueuse de la vie privée.


Que les autres IA échouent je crois pas… La recherche Google via photo où appareil photo est précise, simple et rapide. Liens pour achat, alternatives, explication du ou des sujets, il pensent réinventer quoi chez Apple ? Sont partis trop tard en IA… Leurs promesses de 2024 sont réelles Aujourd’hui avec tous les autres acteurs sauf EUX. 🤣