UniGen-1.5 : Apple dévoile une IA qui comprend, génère et modifie des images
Une équipe de chercheurs d’Apple présente UniGen-1.5, un système d’intelligence artificielle conçu pour centraliser la compréhension, la génération et la retouche d’images au sein d’une architecture unique. Cette évolution du modèle initial UniGen vise à surmonter la complexité de traiter ces tâches distinctes dans un seul modèle unifié, en améliorant spécifiquement la précision des modifications visuelles demandées par l’utilisateur.

Une architecture unifiée pour la retouche complexe
Cette nouvelle étude fait suite aux travaux publiés en mai dernier, où Apple avait dévoilé un grand modèle de langage multimodal (MLLM) capable de comprendre et de créer des images sans recourir à des systèmes séparés. Avec UniGen-1.5, les scientifiques intègrent désormais des capacités d’édition avancées à ce socle existant.
L’unification de ces trois compétences représente un défi technique majeur car la création et l’analyse d’images reposent traditionnellement sur des approches divergentes. Toutefois, les chercheurs soutiennent que cette fusion permet au modèle d’exploiter ses facultés de compréhension pour affiner la qualité de la génération. Cela est essentiel pour résoudre un problème récurrent : la difficulté des IA à saisir parfaitement des instructions de retouche complexes, surtout lorsque les changements requis sont subtils ou très spécifiques.
L’alignement des instructions comme solution technique
Pour pallier ces lacunes de compréhension, l’équipe a développé une étape post-entraînement inédite baptisée « Alignement des instructions d’édition ». Le principe consiste à forcer le modèle à prédire une description textuelle détaillée du résultat attendu, en se basant sur l’image originale et la demande de modification, avant même de générer le visuel final.
« Nous observons que le modèle reste inadéquat pour gérer divers scénarios d’édition après un réglage fin supervisé en raison de sa compréhension insuffisante des instructions d’édition. Par conséquent, nous proposons l’alignement des instructions d’édition […] pour améliorer l’alignement entre l’instruction d’édition et la sémantique de l’image cible », indiquent les chercheurs d’Apple.

Cette méthode permet au système de mieux internaliser l’intention de la retouche. Par la suite, les chercheurs appliquent un apprentissage par renforcement qui utilise un système de récompense identique pour la génération et l’édition, un système crucial pour harmoniser les performances sur des tâches allant de la simple correction à la transformation totale.
Il existe quelques limitations
Les résultats expérimentaux positionnent UniGen-1.5 comme une référence solide face à la concurrence. Sur les benchmarks standards de l’industrie, le modèle obtient des scores de 0,89 sur GenEval et 86,83 sur DPG-Bench, surclassant nettement des méthodes récentes comme BAGEL ou BLIP3o. En matière d’édition d’image, il atteint un score global de 4,31 sur ImgEdit, dépassant le modèle open source OminiGen2 et rivalisant avec des solutions propriétaires telles que GPT-Image-1.
Malgré ces avancées, Apple admet que son outil présente encore des faiblesses. UniGen-1.5 peine à maintenir la cohérence de l’identité des sujets dans certaines circonstances et échoue à restituer correctement tout ce qui touche au texte sur les images. Les chercheurs attribuent ce défaut au « détokenizer » discret léger qui éprouve des difficultés à maîtriser les détails structurels fins nécessaires à la génération de texte, signalant un besoin d’améliorations futures.
