Apple dévoile ses avancées en IA multimodale pour comprendre, générer et rechercher des images

Frederic L.
15 Jan 2026à 9:45
Apple
10 partages
1
4

Apple Intelligence, Etude, Intelligence artificielle

Apple poursuit ses travaux de fond dans l’intelligence artificielle avec plusieurs études consacrées aux modèles de langage multimodaux, capables de traiter simultanément texte et images. Ces recherches illustrent la stratégie du groupe californien, déjà amorcée avec iOS 18, qui a introduit la génération d’images directement sur iPhone grâce à des modèles locaux.

Des recherches centrées sur l’image et le raisonnement visuel

Parmi les publications récentes figure un modèle baptisé DeepMMSearch-R1, conçu pour améliorer les recherches web à partir d’images. Les ingénieurs d’Apple partent d’un constat simple : les modèles existants échouent souvent à fournir des réponses précises lorsqu’une image contient plusieurs éléments ou nécessite une interprétation fine.

La particularité de DeepMMSearch-R1 réside dans sa capacité à recadrer automatiquement une image afin d’en isoler la partie pertinente. Une fois l’élément identifié, le modèle combine recherche visuelle et textuelle pour vérifier les informations et limiter les erreurs. Apple affirme que cette approche dépasse les performances des systèmes actuels reposant sur des agents de recherche classiques.

Manzano, un modèle unifié pour créer et analyser des images

Un autre projet, nommé Manzano, explore une voie complémentaire. Il s’agit d’un modèle multimodal capable à la fois de comprendre le contenu d’une image et d’en générer de nouvelles à partir de texte, sans sacrifier l’une de ces compétences. Contrairement à d’autres solutions du marché, Apple a opté pour un système de représentation visuelle unifié, réduisant les conflits entre génération et interprétation.

Les tests menés montrent que Manzano rivalise avec les références du secteur sur des tâches complexes, y compris l’édition d’images, le transfert de style ou la gestion de demandes volontairement contre-intuitives.

Ces travaux restent pour l’instant expérimentaux, mais ils laissent entrevoir de futures évolutions des services Apple. À terme, ces avancées pourraient enrichir Siri et les outils créatifs de l’écosystème, renforçant l’ambition d’Apple de proposer une intelligence artificielle intégrée, performante et respectueuse de la vie privée.

Un commentaire pour cet article :

Italian 2
Le 15 janvier 2026 à 13:10

Que les autres IA échouent je crois pas… La recherche Google via photo où appareil photo est précise, simple et rapide. Liens pour achat, alternatives, explication du ou des sujets, il pensent réinventer quoi chez Apple ? Sont partis trop tard en IA… Leurs promesses de 2024 sont réelles Aujourd’hui avec tous les autres acteurs sauf EUX. 🤣

Répondre

Laisser un commentaire

Fil des commentaires

Quelques règles à respecter :
1. Restez dans le sujet de l'article
2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles

Apple dévoile ses avancées en IA multimodale pour comprendre, générer et rechercher des images

Des recherches centrées sur l’image et le raisonnement visuel

Manzano, un modèle unifié pour créer et analyser des images

Lisez aussi ces autres articles !

Un commentaire pour cet article :

Laisser un commentaire

Comparateur