Apple Ferret : Apple dévoile son IA multimodale pour iOS et Siri
Apple vient enfin de lever le voile sur l’IA qui à terme, probablement dès la prochaine génération d‘iPhone, devrait « motoriser » iOS, iPadOS et surtout Siri. Apple Ferret est un grand modèle de langage multimodal (MLLM) dont l’objectif est rien moins que de se poser en concurrent direct du GPT-4 d’OpenAI. Multimodal, Ferret est capable de comprendre et de générer du texte, mais aussi des images, des sons et des vidéos. L’IA est publiée sous licence open source et sur le papier, Ferret se présente donc comme l’arme absolue d’Apple pour faire revenir le californien dans la course à l’IA.
🚀🚀Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
📰https://t.co/gED9Vu0I4y
1⃣ Ferret enables referring of an image region at any shape
2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) October 12, 2023
Sans surprise, Ferret est entrainé avec des GPU Nvidia A100 (les références actuelles dans ce secteur) et la première mouture de l’IA s’adresse essentiellement à l’iPhone. Les premiers résultats, notamment dans l’analyse d’images, seraient dans certains cas supérieurs à ceux obtenus avec GPT-4, mais ces affirmations sont celles d’Apple. On attendra donc de pouvoir juger sur pièce pour conclure. On notera que la publication de Ferret en open source traduit l’approche ouverte d’Apple dans le domaine de l’IA, une stratégie inverse de celle du » jardin fermé » propre à l’écosystème iOS en général. Ce n’est pas une nouveauté dans ce domaine de recherche, sachant que cette ouverture peut aussi être mise à l’actif du retard pris à l’origine par Apple dans le domaine de l’IA.
Ferret promet en tout cas d’apporter de nouvelles performances à certaines fonctions clefs (de l’iPhone donc dans un premier temps), comme la traduction instantanée, les capacités de traitement AR (qui serviront aussi à l’Apple Vision Pro), mais plus certainement encore, à Siri, qui devrait profiter en priorité de ce modèle de langage multimodal. L’assistant d’Apple, déjà largement devancé par son homologue de chez Google (les comparos sont nettement plus contrastés avec Alexa et Bixby) bénéficierait ainsi à plein des capacités de traitement et d’analyse supérieures de Ferret, et dépasserait donc, enfin, son statut peu reluisant de minuteur de luxe.
Apple Cap Ferret 😂
Maintenant j’espère que ca sera déployé pour tous les appareils sous ios 18 (donc sur les anciens Iphone compatibles).
Et j’espère pas qu’il vont seulement se contenter de Siri mais améliorer également Apple Music 😊
J’en doute. Ça serait déjà une prouesse de faire tourner un tel modèle sur un appareil mobile. Même sur le dernier iPhone.
Normalement si puisque une IA apprends aussi de toutes les demandes et réponses pour se peaufiner.Ca fonctionne avec des serveurs externes,pas dans le matériel
La quantization permet de réduire le poids du modèle et la puissance de calcul en réduisant la précision des poids associée à chaque neurones. Un modèle entraîné peut être déployé sur une multitude d’appareil avec des performances plus ou moins bonne.
Le problème reste la dérive et le biais comme toutes les modèles.