Au cours des derniers mois, de nombreuses fuites ont laissé entendre qu’Apple prévoyait de lancer des appareils portables dotés d’IA, à l’instar d’AirPods équipés de caméras ou bien encore des lunettes intelligentes destinées à concurrencer les Ray-Ban de Meta, et il se murmure que ces appareils pourraient être commercialisés à partir de 2027. Bien que les designs de ces produits restent encore secrets, Apple commence à dévoiler le fonctionnement possible de l’IA qui embarquera dans ces nouveaux modèles. Ainsi, en 2023, l’équipe de recherche en apprentissage automatique d’Apple a présenté MLX, un framework d’apprentissage automatique léger et optimisé pour les puces Apple Silicon. MLX permet aux développeurs d’entraîner et d’exécuter des modèles directement sur les appareils Apple, facilitant ainsi le traitement en local sans dépendre du cloud.

En s’appuyant sur MLX, Apple a conçu FastVLM, un modèle de génération d’image particulièrement performant et capable notamment de traiter rapidement des images haute résolution tout en étant peu demandeur en ressources. Au cœur de FastVLM se trouve l’encodeur FastViTHD, conçu pour réduire considérablement la latence et la taille du modèle, qui s’avère jusqu’à 3,2 fois plus rapide et 3,6 fois plus compact que les modèles équivalents. FastVLM réduit également le nombre de jetons générés, ce qui accélère l’interprétation et la réponse (Apple annonce un temps de génération du premier jeton 85 fois plus rapide que celui des systèmes concurrents).