Apple vient enfin de lever le voile sur l’IA qui à terme, probablement dès la prochaine génération d‘iPhone, devrait « motoriser » iOS, iPadOS et surtout Siri. Apple Ferret est un grand modèle de langage multimodal (MLLM) dont l’objectif est rien moins que de se poser en concurrent direct du GPT-4 d’OpenAI. Multimodal, Ferret est capable de comprendre et de générer du texte, mais aussi des images, des sons et des vidéos. L’IA est publiée sous licence open source et sur le papier, Ferret se présente donc comme l’arme absolue d’Apple pour faire revenir le californien dans la course à l’IA.

Sans surprise, Ferret est entrainé avec des GPU Nvidia A100 (les références actuelles dans ce secteur) et la première mouture de l’IA s’adresse essentiellement à l’iPhone. Les premiers résultats, notamment dans l’analyse d’images, seraient dans certains cas supérieurs à ceux obtenus avec GPT-4, mais ces affirmations sont celles d’Apple. On attendra donc de pouvoir juger sur pièce pour conclure. On notera que la publication de Ferret en open source traduit l’approche ouverte d’Apple dans le domaine de l’IA, une stratégie inverse de celle du » jardin fermé » propre à l’écosystème iOS en général. Ce n’est pas une nouveauté dans ce domaine de recherche, sachant que cette ouverture peut aussi être mise à l’actif du retard pris à l’origine par Apple dans le domaine de l’IA.

Ferret promet en tout cas d’apporter de nouvelles performances à certaines fonctions clefs (de l’iPhone donc dans un premier temps), comme la traduction instantanée, les capacités de traitement AR (qui serviront aussi à l’Apple Vision Pro), mais plus certainement encore, à Siri, qui devrait profiter en priorité de ce modèle de langage multimodal. L’assistant d’Apple, déjà largement devancé par son homologue de chez Google (les comparos sont nettement plus contrastés avec Alexa et Bixby) bénéficierait ainsi à plein des capacités de traitement et d’analyse supérieures de Ferret, et dépasserait donc, enfin, son statut peu reluisant de minuteur de luxe.