Apple participe au développement d’une IA qui recrée des sons et des voix à partir de vidéos muettes
Des chercheurs affiliés à Apple viennent de dévoiler VSSFlow, un nouveau modèle d’intelligence artificielle capable de générer à la fois des bruitages et de la parole à partir de simples vidéos sans aucun son. Cette avancée marque une rupture avec les approches classiques qui traitent séparément la synthèse vocale et les sons d’ambiance au prix de résultats souvent limités.
Un modèle unifié aux performances inédites
Conçu par trois ingénieurs d’Apple et six chercheurs de l’université Renmin en Chine, VSSFlow repose sur une architecture commune qui permet à l’apprentissage de la parole d’améliorer la génération de sons, et inversement. « L’entraînement conjoint ne dégrade pas les performances, il les renforce », expliquent les auteurs dans leur étude.
Le système combine plusieurs techniques avancées de génération audio, notamment la conversion de textes en séquences phonétiques et des méthodes de reconstruction sonore à partir de bruit aléatoire. Résultat : une IA capable de produire des dialogues ainsi que des effets sonores d’ambiance en cohérence avec les images, et ce dans un seul flux de traitement. Il est aussi possible de combiner cette fonction avec l’intégration de dialogues pour les personnages en train de parler,
Vers de nouveaux usages pour la vidéo et la création
Lors des tests, VSSFlow s’est montré aussi performant — voire meilleur — que des modèles spécialisés dans une seule tâche, tout en offrant une solution unifiée plus simple à déployer. Les chercheurs ont également publié des démonstrations comparatives et ouvert le code source sur GitHub.
Cette technologie pourrait à terme transformer la postproduction vidéo, l’accessibilité des contenus ou bien encore la création immersive, en permettant notamment de sonoriser automatiquement des archives muettes ou des séquences filmées sans prise de son. Une nouvelle étape dans l’ambition d’Apple autour de l’IA générative appliquée aux médias audiovisuels.
