Ferret-UI Lite, le modèle IA local d’Apple qui écrase des rivaux 24 fois plus gros
Apple a publié une nouvelle étude présentant Ferret-UI Lite, une version allégée de sa famille de modèles Ferret-UI, conçue pour fonctionner directement sur l’appareil. Avec seulement 3 milliards de paramètres, le modèle d’intelligence artificielle égale ou dépasse des agents d’interface graphique concurrents comptant jusqu’à 24 fois plus de paramètres.

La famille des modèles Ferret est née en décembre 2023, issue d’une équipe de 9 chercheurs qui avaient présenté un modèle multimodal capable de comprendre des références en langage naturel à des zones précises d’une image. Apple a ensuite élargi cette base avec Ferret-UI (13 milliards de paramètres, spécialisé dans les interfaces mobiles à résolution fixe) puis Ferret-UI 2 (multi-plateformes et haute résolution). Ferret-UI Lite représente une rupture de philosophie : là où ses prédécesseurs misaient sur la puissance du serveur, l’IA vise l’exécution locale.
Le problème des agents d’interface graphique
Le principal obstacle à ce type d’approche est bien documenté : les agents d’interface graphique performants reposent sur de grands modèles côté serveur, capables de raisonnement complexe et de planification sur plusieurs étapes. Ces modèles sont toutefois trop lourds et trop gourmands en calcul pour tourner directement sur un appareil, qu’il s’agisse d’un smartphone ou d’un ordinateur portable.
Les chercheurs identifient dans leur étude quatre types de tâches que ces agents doivent maîtriser simultanément : l’interaction agentique avec les interfaces graphiques, la compréhension de l’écran, la planification multi-étapes et la capacité de correction en cours d’exécution. Résoudre ces quatre dimensions avec un modèle de 3 milliards de paramètres a nécessité deux éléments techniques distincts.
Les atouts de Ferret-UI Lite
Le premier élément est la technique de recadrage et de zoom à la volée. Ferret-UI Lite effectue une prédiction initiale sur l’écran complet, identifie la zone pertinente, recadre l’image autour d’elle, puis produit une seconde prédiction sur cette région isolée. Ce mécanisme en deux passes compense directement la limitation d’un petit modèle face à un grand nombre de composants visuels : plutôt que de tout traiter simultanément, il concentre successivement son attention sur ce qui compte.

Le second élément est peut-être plus significatif à long terme : le système d’auto-génération de données d’entraînement. Les chercheurs ont créé un système multi-agents qui interagit directement avec des interfaces graphiques en direct pour produire des exemples synthétiques à grande échelle. Ce système repose sur quatre agents enchaînés :
- un générateur de tâches pédagogiques qui propose des objectifs de difficulté croissante
- un agent de planification qui les décompose en étapes
- un agent de mise en pratique qui les réalise concrètement à l’écran
- un modèle critique qui évalue la qualité de chaque résultat

Ce qui distingue ce système des approches classiques basées sur des données annotées manuellement, c’est sa capacité à capturer la complexité du monde réel : les erreurs, les états inattendus, les impasses et les stratégies de récupération que les utilisateurs rencontrent en pratique. Ce sont des situations quasi impossibles à reproduire proprement avec des données sélectionnés par des humains.
Il y a des limites reconnues et une confidentialité
Ferret-UI Lite a été entraîné et évalué sur des environnements Android, Web et ordinateur via les benchmarks AndroidWorld et OSWorld, contrairement aux versions précédentes centrées sur iOS. Les chercheurs ne justifient pas explicitement ce choix, mais il reflète probablement la disponibilité des environnements de test reproductibles à grande échelle sur ces plateformes.

Sur les tâches complexes impliquant plusieurs étapes enchaînées, le modèle IA montre ses limites, un compromis attendu pour un modèle embarqué. En contrepartie, son exécution entièrement locale offre une garantie de confidentialité concrète : aucune donnée n’est transmise à des serveurs distants et l’agent interagit avec les interfaces d’applications directement sur l’appareil de l’utilisateur, sans dépendance au réseau.
