Apple a présenté il y a quelques mois FastVLM, un modèle de langage visuel (VLM) qui excelle dans le traitement d’images haute résolution en temps quasi réel. Il est maintenant possible de tester cette IA directement depuis son navigateur Internet. Le modèle est accessible via Hugging Face.

Une rapidité inégalée grâce à MLX

FastVLM s’appuie sur MLX, le framework d’apprentissage automatique open source d’Apple, conçu spécifiquement pour ses puces Apple Silicon. Ce modèle permet d’avoir une légende vidéo jusqu’à 85 fois plus rapide tout en étant trois fois plus compact que ses concurrents. Une version légère, FastVLM-0.5B, peut être testée directement dans un navigateur via Hugging Face. Une fois activé, FastVLM décrit avec précision les scènes vidéo en temps réel.

L’interface propose des suggestions de prompts pour interagir avec le modèle, comme « Décrire ce que tu vois en une phrase », « Quelle est la couleur de mon t-shirt ? » ou « Identifier les émotions ou actions représentées ». Vous pouvez ajuster le prompt en bas à gauche de l’écran pour personnaliser les descriptions ou même utiliser une caméra virtuelle pour alimenter le modèle en vidéos et observer ses analyses détaillées. Cette capacité à traiter plusieurs scènes rapidement illustre la puissance et la précision de FastVLM, bien que l’abondance d’informations puisse parfois compliquer la compréhension.

Voici une vidéo de démonstration :

If you think @Apple is not doing much in AI, you're getting blindsided by the chatbot hype and not paying enough attention! They just released FastVLM and MobileCLIP2 on @huggingface. The models are up to 85x faster and 3.4x smaller than previous work, enabling real-time vision… pic.twitter.com/jYCPukNuiK — clem 🤗 (@ClementDelangue) September 1, 2025

Un traitement local pour plus de confidentialité

Un atout majeur de FastVLM réside dans son exécution locale directement dans le navigateur, sans transfert de données vers des serveurs externes. Le modèle fonctionne même hors ligne, ce qui ouvre des perspectives pour des applications sur des lunettes ou montres connectées, ou encore des technologies d’assistance où légèreté et faible latence sont cruciales. Cette approche garantit une confidentialité, un point fort pour les utilisateurs soucieux de la sécurité de leurs données.

La démo actuelle repose sur le modèle de 500 millions de paramètres, mais la famille FastVLM inclut des versions plus puissantes de 1,5 et 7 milliards de paramètres, offrant des performances supérieures. Cependant, ces modèles plus lourds ne sont pas adaptés à une exécution directe dans un navigateur.

Vous pouvez analyser plus en détail le projet FastVLM sur Hugging Face ou GitHub.