Ferret-UI Lite, le modèle IA local d’Apple qui écrase des rivaux 24 fois plus gros

Jean-Baptiste A.
21 Fév 2026à 7:00
Apple
11 partages
3
4

Apple a publié une nouvelle étude présentant Ferret-UI Lite, une version allégée de sa famille de modèles Ferret-UI, conçue pour fonctionner directement sur l’appareil. Avec seulement 3 milliards de paramètres, le modèle d’intelligence artificielle égale ou dépasse des agents d’interface graphique concurrents comptant jusqu’à 24 fois plus de paramètres.

La famille des modèles Ferret est née en décembre 2023, issue d’une équipe de 9 chercheurs qui avaient présenté un modèle multimodal capable de comprendre des références en langage naturel à des zones précises d’une image. Apple a ensuite élargi cette base avec Ferret-UI (13 milliards de paramètres, spécialisé dans les interfaces mobiles à résolution fixe) puis Ferret-UI 2 (multi-plateformes et haute résolution). Ferret-UI Lite représente une rupture de philosophie : là où ses prédécesseurs misaient sur la puissance du serveur, l’IA vise l’exécution locale.

Le problème des agents d’interface graphique

Le principal obstacle à ce type d’approche est bien documenté : les agents d’interface graphique performants reposent sur de grands modèles côté serveur, capables de raisonnement complexe et de planification sur plusieurs étapes. Ces modèles sont toutefois trop lourds et trop gourmands en calcul pour tourner directement sur un appareil, qu’il s’agisse d’un smartphone ou d’un ordinateur portable.

Les chercheurs identifient dans leur étude quatre types de tâches que ces agents doivent maîtriser simultanément : l’interaction agentique avec les interfaces graphiques, la compréhension de l’écran, la planification multi-étapes et la capacité de correction en cours d’exécution. Résoudre ces quatre dimensions avec un modèle de 3 milliards de paramètres a nécessité deux éléments techniques distincts.

Les atouts de Ferret-UI Lite

Le premier élément est la technique de recadrage et de zoom à la volée. Ferret-UI Lite effectue une prédiction initiale sur l’écran complet, identifie la zone pertinente, recadre l’image autour d’elle, puis produit une seconde prédiction sur cette région isolée. Ce mécanisme en deux passes compense directement la limitation d’un petit modèle face à un grand nombre de composants visuels : plutôt que de tout traiter simultanément, il concentre successivement son attention sur ce qui compte.

Le second élément est peut-être plus significatif à long terme : le système d’auto-génération de données d’entraînement. Les chercheurs ont créé un système multi-agents qui interagit directement avec des interfaces graphiques en direct pour produire des exemples synthétiques à grande échelle. Ce système repose sur quatre agents enchaînés :

un générateur de tâches pédagogiques qui propose des objectifs de difficulté croissante
un agent de planification qui les décompose en étapes
un agent de mise en pratique qui les réalise concrètement à l’écran
un modèle critique qui évalue la qualité de chaque résultat

Ce qui distingue ce système des approches classiques basées sur des données annotées manuellement, c’est sa capacité à capturer la complexité du monde réel : les erreurs, les états inattendus, les impasses et les stratégies de récupération que les utilisateurs rencontrent en pratique. Ce sont des situations quasi impossibles à reproduire proprement avec des données sélectionnés par des humains.

Il y a des limites reconnues et une confidentialité

Ferret-UI Lite a été entraîné et évalué sur des environnements Android, Web et ordinateur via les benchmarks AndroidWorld et OSWorld, contrairement aux versions précédentes centrées sur iOS. Les chercheurs ne justifient pas explicitement ce choix, mais il reflète probablement la disponibilité des environnements de test reproductibles à grande échelle sur ces plateformes.

Sur les tâches complexes impliquant plusieurs étapes enchaînées, le modèle IA montre ses limites, un compromis attendu pour un modèle embarqué. En contrepartie, son exécution entièrement locale offre une garantie de confidentialité concrète : aucune donnée n’est transmise à des serveurs distants et l’agent interagit avec les interfaces d’applications directement sur l’appareil de l’utilisateur, sans dépendance au réseau.

3 commentaires pour cet article :

Dark(via l'app )
Le 21 février 2026 à 08:39

Faites nous fonctionner un SIRI qui ne nous mette pas la honte par rapport aux autres IA….

Répondre
- nat
  Le 21 février 2026 à 18:52
  
  Siri n’est pas une IA, mais plutôt un assistant « intelligent ».
  
  Répondre
Uhu(via l'app )
Le 21 février 2026 à 09:58

Le modèle est téléchargeable pour l’utiliser avec LM studio P.ex ?

Répondre

Laisser un commentaire

Fil des commentaires

Quelques règles à respecter :
1. Restez dans le sujet de l'article
2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles