Apple poursuit ses travaux de fond dans l’intelligence artificielle avec plusieurs études consacrées aux modèles de langage multimodaux, capables de traiter simultanément texte et images. Ces recherches illustrent la stratégie du groupe californien, déjà amorcée avec iOS 18, qui a introduit la génération d’images directement sur iPhone grâce à des modèles locaux.

Des recherches centrées sur l’image et le raisonnement visuel

Parmi les publications récentes figure un modèle baptisé DeepMMSearch-R1, conçu pour améliorer les recherches web à partir d’images. Les ingénieurs d’Apple partent d’un constat simple : les modèles existants échouent souvent à fournir des réponses précises lorsqu’une image contient plusieurs éléments ou nécessite une interprétation fine.

Intelligence artificielle

La particularité de DeepMMSearch-R1 réside dans sa capacité à recadrer automatiquement une image afin d’en isoler la partie pertinente. Une fois l’élément identifié, le modèle combine recherche visuelle et textuelle pour vérifier les informations et limiter les erreurs. Apple affirme que cette approche dépasse les performances des systèmes actuels reposant sur des agents de recherche classiques.

Manzano, un modèle unifié pour créer et analyser des images

Un autre projet, nommé Manzano, explore une voie complémentaire. Il s’agit d’un modèle multimodal capable à la fois de comprendre le contenu d’une image et d’en générer de nouvelles à partir de texte, sans sacrifier l’une de ces compétences. Contrairement à d’autres solutions du marché, Apple a opté pour un système de représentation visuelle unifié, réduisant les conflits entre génération et interprétation.

Les tests menés montrent que Manzano rivalise avec les références du secteur sur des tâches complexes, y compris l’édition d’images, le transfert de style ou la gestion de demandes volontairement contre-intuitives.

Ces travaux restent pour l’instant expérimentaux, mais ils laissent entrevoir de futures évolutions des services Apple. À terme, ces avancées pourraient enrichir Siri et les outils créatifs de l’écosystème, renforçant l’ambition d’Apple de proposer une intelligence artificielle intégrée, performante et respectueuse de la vie privée.