La convergence technologique entre Apple et NVIDIA marque un tournant majeur dans l'optimisation des modèles de langage. Cette collaboration inédite aboutit à une accélération spectaculaire des performances en matière de génération de texte par intelligence artificielle.

Chat With RTX, l'application de chat en local de NVIDIA. © NVIDIA
Chat With RTX, l'application de chat en local de NVIDIA. © NVIDIA

L'écosystème de l'intelligence artificielle connaît une mutation profonde avec l'émergence d'alliances stratégiques entre géants technologiques. Apple, qui déploie progressivement son arsenal d'outils d'IA générative, s'associe à NVIDIA pour repousser les frontières du possible en matière de traitement du langage naturel. Cette synergie technique débouche sur des avancées considérables dans l'optimisation des grands modèles de langage (LLM).

Une alliance stratégique pour repousser les limites

Apple franchit un cap décisif avec le développement de « ReDrafter », une technique novatrice associant la recherche par faisceau (beam search) et l'attention dynamique en arbre. Cette approche sophistiquée vise à décupler les capacités de génération textuelle.

L'intégration de cette technologie au framework TensorRT-LLM de NVIDIA produit des résultats remarquables. Les mesures de performance attestent d'une multiplication par 2,7 de la vitesse de génération de tokens par seconde en mode de décodage glouton.

Une génération de tokens presque 3 fois plus rapide avec cette nouvelle méthode ! © Apple
Une génération de tokens presque 3 fois plus rapide avec cette nouvelle méthode ! © Apple

Le système ReDrafter exploite un modèle RNN (réseau de neurones récurrent) pour effectuer des prédictions préliminaires, couplé à des algorithmes sophistiqués d'attention dynamique. Cette approche permet d'explorer efficacement différentes possibilités de génération de texte en parallèle.

Des bénéfices concrets pour l'industrie

L'adaptation de cette technologie au sein de TensorRT-LLM a nécessité des modifications substantielles de la part des équipes NVIDIA. Le framework a été enrichi de nouveaux opérateurs et fonctionnalités pour accommoder des modèles et des méthodes de décodage plus élaborés.

Cette avancée technique s'inscrit dans la stratégie d'Apple d'enrichir son écosystème d'IA, notamment avec un Siri nouvelle génération et ses fonctionnalités Apple Intelligence. Les développeurs exploitant des GPU NVIDIA bénéficieront d'une génération de texte plus véloce tout en optimisant leur empreinte énergétique.

Les évaluations menées sur des modèles de production massifs révèlent non seulement une accélération notable mais aussi une diminution significative de la consommation énergétique, un aspect crucial pour l'industrie.

Source : Apple/NVIDIA