AMD vient de dévoiler son premier petit modèle de langage, l'AMD-135M. Cette annonce révèle une nouvelle facette de la stratégie du géant des semi-conducteurs dans le domaine de l'intelligence artificielle.

Lisa Su, P.D.-G. d'AMD. © AMD
Lisa Su, P.D.-G. d'AMD. © AMD

Alors que la course aux modèles de langage géants fait rage, AMD prend un chemin de traverse en misant sur les Small Language Models (SLM). L'entreprise dirigée par Lisa Su semble avoir compris que la taille ne fait pas tout en matière d'IA. Cette approche pragmatique pourrait bien lui permettre de se tailler une place de choix sur un marché dominé par NVIDIA.

Un petit modèle aux grandes ambitions

AMD frappe fort avec son AMD-135M, un modèle de langage de « seulement » 135 millions de paramètres. Ne vous fiez pas à sa taille modeste, ce petit nouveau a plus d'un tour dans son sac ! Entraîné sur pas moins de 670 milliards de tokens, il se décline en deux versions : une généraliste et une spécialisée dans le code. La version code, baptisée AMD-Llama-135M-code, a bénéficié d'un entraînement supplémentaire sur 20 milliards de tokens issus de code Python.

Cette spécialisation montre qu'AMD ne vise pas le grand public, mais plutôt les professionnels et les entreprises. L'atout maître de ce modèle réside dans sa technique de « speculative decoding », une technique astucieuse qui permet à AMD-135M de servir de « brouillon » pour accélérer l'inférence de modèles de langage plus imposants comme CodeLlama-7B. L'idée est d'utiliser le petit modèle spécialisé pour générer plusieurs tokens candidats en parallèle en un seul passage avant, qui sont ensuite vérifiés et corrigés si besoin par le gros modèle cible.

Les benchmarks ne sont pas très impressionnants, mais ce n'est pas dans la performance pure qu'AMD veut briller. © AMD
Les benchmarks ne sont pas très impressionnants, mais ce n'est pas dans la performance pure qu'AMD veut briller. © AMD

Ce procédé réduit la charge de calcul et améliore l'efficacité des accès mémoire, contournant les limites de l'inférence autorégressive classique où les tokens sont générés un par un. Les tests menés par AMD révèlent des gains de performance substantiels sur diverses plateformes comme l'accélérateur Instinct MI250 ou les processeurs Ryzen AI avec NPU, avec des speedups allant jusqu'à 3,88 x par rapport à une inférence sans speculative decoding.

Cette synergie entre un petit modèle spécialisé (SLM) et un gros modèle généraliste (LLM) ouvre la voie à une optimisation des performances IA à différentes échelles. Les SLM comme AMD-135M, avec leur architecture compacte et leur spécialisation sur des tâches spécifiques, peuvent ainsi aider les LLM à « mieux raisonner » en générant des ébauches de grande qualité qui accélèrent l'inférence finale. Une approche astucieuse qui pourrait bien devenir un standard pour démocratiser l'utilisation des gros modèles de langage, en particulier pour les applications liées au code ou dans des scénarios où la latence est critique.

AMD expliquer réduire le temps d'inférence de CodeLlama-7B par un facteur de 2 à 4. © AMD

Une stratégie à contre-courant qui pourrait payer

En misant sur les SLM, AMD prend le contrepied de la tendance actuelle. Alors que tout le monde s'écharpe pour créer le plus gros modèle possible, l'entreprise préfère jouer la carte de l'efficacité. Une approche qui rappelle sa stratégie dans le domaine des processeurs et maintenant des GPU : offrir un excellent rapport performance/prix. L'idée est de démocratiser l'accès à l'IA en proposant des solutions performantes, mais abordables, que ce soit pour les entreprises ou les développeurs indépendants.

Cette stratégie s'inscrit dans la continuité des récentes déclarations de Lisa Su. La P.-D.G. d'AMD avait en effet affirmé sa volonté de « bousculer NVIDIA » sur le marché de l'IA. Avec l'AMD-135M, l'entreprise montre qu'elle ne se contente pas de paroles en l'air et qu'elle a une vision claire de son positionnement sur ce marché en pleine ébullition. L'open source est également au cœur de cette stratégie. En rendant disponibles le code d'entraînement, les datasets et les poids du modèle, AMD joue la carte de la transparence et de la collaboration. Une approche qui pourrait lui permettre de fédérer une communauté de développeurs autour de ses solutions IA, à l'instar de ce qu'elle a réussi à faire dans le domaine des processeurs.

Un événement crucial pour l'avenir d'AMD dans l'IA

L'événement « Advancing AI » de jeudi s'annonce comme un moment charnière pour AMD dans sa stratégie IA. Après avoir posé les bases avec l'AMD-135M et son approche originale combinant SLM et speculative decoding, l'entreprise semble prête à passer à la vitesse supérieure.Si AMD parvient à concrétiser les attentes, cela pourrait lui permettre de gagner des parts de marché significatives face à NVIDIA dans le domaine des accélérateurs IA. Un enjeu crucial pour s'imposer durablement sur ce marché en pleine explosion.

Au-delà des annonces de produits comme les accélérateurs Instinct de nouvelle génération et les processeurs EPYC 5e génération, cet événement sera aussi l'occasion pour AMD de clarifier sa vision et sa stratégie IA pour les années à venir. Lisa Su, la PDG, aura à cœur de montrer qu'AMD a un plan cohérent et ambitieux pour peser face aux géants du secteur. En misant sur l'open source, l'efficacité énergétique et des solutions IA adaptées à différents cas d'usage et budgets, la firme entend démocratiser l'accès à ces technologies. Une approche qui a fait ses preuves pour les processeurs et les GPU, et qu'AMD espère répliquer avec succès dans l'IA.

À découvrir
Les meilleures cartes graphiques en 2024 testées par nos experts

22 septembre 2024 à 19h15

Comparatif

Source : AMD