Apple dévoile une IA pour l’édition de photos avec des commandes par texte
Apple continue son travail sur l’intelligence artificielle et dévoile MGIE (MLLM-Guided Image Editing), un modèle d’IA open source capable d’éditer des images sur la base des instructions en langage naturel d’un utilisateur.
De l’IA d’Apple pour l’édition de photos
MGIE s’appuie sur des modèles multimodaux à grand langage pour interpréter les commandes de l’utilisateur et effectuer des manipulations au niveau des pixels. Le modèle peut gérer différents aspects de l’édition, tels que les modifications de type Photoshop, l’optimisation globale de la photo et l’édition locale.
Les améliorations globales des photos peuvent porter sur la luminosité, le contraste ou la netteté, ou encore sur l’application d’effets artistiques. L’édition locale permet de modifier la forme, la taille, la couleur ou la texture de régions ou d’objets spécifiques d’une image, tandis que les modifications de type Photoshop peuvent inclure le recadrage, le redimensionnement, la rotation et l’ajout de filtres, voire la modification de l’arrière-plan et le mélange d’images.
Pour une photo d’un hamburger par exemple, l’utilisateur pourrait demander à ce qu’elle ait l’air plus saine. En faisant appel au bon sens, le modèle peut ajouter des garnitures végétales, telles que des tomates et des herbes. Une demande d’optimisation globale pourrait prendre la forme d’un ajout de contraste pour simuler plus de lumière, tandis qu’une modification de type Photoshop pourrait être effectuée en demandant au modèle de supprimer les personnes de l’arrière-plan d’une photo, en déplaçant le centre d’intérêt de l’image vers l’expression faciale du sujet.
Si le modèle ne donne pas le résultat escompté, vous pouvez affiner votre demande ou annuler l’effet et donner une instruction différente.
Apple a collaboré avec des chercheurs de l’Université de Californie pour créer MGIE, qui a été présenté dans un article à la Conférence internationale sur les représentations d’apprentissage (ICLR) 2024.
Une démo est disponible
MGIE est disponible en tant que projet open source sur GitHub, où les utilisateurs peuvent trouver le code, les données et les modèles pré-entraînés. Il est également possible de tester MGIE en ligne grâce à une démo disponible à cette adresse. Elle est hébergée par Hugging Face Spaces, une plateforme de partage et de collaboration sur les projets d’apprentissage automatique (ML).
On peut naturellement imaginer que cette IA va arriver dans iOS 18 et macOS 15. Après tout, les nouvelles mises à jour d’Apple auraient un accent sur l’intelligence artificielle, avec du mieux pour Siri notamment.