Des ingénieurs d’Apple ont dévoilé de nouvelles avancées concernant leur collaboration avec Nvidia pour améliorer la performance de génération de texte avec de grands modèles de langage (LLM). Cette collaboration fait suite à la publication par Apple de sa méthode Recurrent Drafter (ReDrafter), qui promet d’accélérer de manière significative la génération de texte tout en maintenant une performance de pointe.

Nvidia TensorRT-LLM

Un partenariat entre Apple et Nvidia

ReDrafter, une technique open source mise à disposition plus tôt cette année, combine deux approches : la recherche en faisceau (beam search), permettant d’explorer diverses possibilités de génération, et l’attention dynamique par arbre (dynamic tree attention), qui optimise le traitement des choix complexes. Ces techniques ont donné de bons résultats en recherche, mais c’est grâce à l’intégration de ReDrafter dans le cadre du travail TensorRT-LLM de Nvidia que des gains notables en performance ont été obtenus.

Ce partenariat a permis d’ajouter de nouveaux opérateurs ou d’adapter des opérateurs existants dans TensorRT-LLM, une plateforme permettant d’accélérer l’exécution des LLM sur les cartes graphiques (GPU) de Nvidia. En effectuant des tests sur un modèle de production de plusieurs milliards de paramètres, les résultats ont montré une accélération de 2,7 fois du taux de génération de tokens par seconde lors du décodage gourmand. Cette amélioration suggère que cette technologie pourrait réduire considérablement la latence pour les utilisateurs tout en optimisant la consommation de ressources, en utilisant moins de GPU et en consommant moins d’énergie.

Les chercheurs en apprentissage automatique d’Apple soulignent que l’efficacité des inférences est un facteur clé dans l’adoption croissante des LLM pour des applications en production. Cette collaboration avec Nvidia ouvre la voie à des applications plus rapides et plus efficaces, permettant ainsi aux développeurs d’exploiter pleinement le potentiel des LLM dans leurs projets.