Le géant Microsoft a dévoilé, mardi, un modèle d'intelligence artificielle puissant mais de petite taille, conçu pour être plus économe en ressources. Ses tâches promettent d'être limitées, mais plus efficaces.
Pendant que les uns, comme Meta notamment avec son Llama 3, propulsent des modèles de langage (LLM) de plus en plus puissants à coups de 8 ou 70 milliards de paramètres, Microsoft a décidé de dégainer la carte de la sobriété de l'IA générative, avec un modèle plus petit. La firme de Redmond a présenté Phi-3, ce mardi 23 avril 2024, un LLM teinté de malice, plutôt petit, taillé pour assumer avec talent des tâches plus limitées que certains de ses grands frères. Avec pour résultat une exploitation des ressources moindre, et donc une économie d'énergie.
Phi-3 Mini, le petit modèle de langage de Microsoft qui pourrait passer maître dans l'art des réseaux sociaux
Microsoft a prévu de lancer une série de trois petits modèles d'IA. La société a présenté le premier d'entre eux, « Phi-3 Mini », qui n'est emmené « que » par 3,8 milliards de paramètres. On rappelle que le nombre de paramètres correspond aux nombres d'instructions complexes qu'un modèle peut comprendre. En soi, Microsoft met ici fin à la démesure et à la guerre des chiffres, pour davantage dédier ses petits modèles de langage à des usages plus particuliers.
Phi-3 peut ainsi surpasser des modèles deux fois plus grands que lui sur différents tests de référence, en codage, en mathématiques, en capacités de langage. Plus précisément, celui-ci est capable d'effectuer des tâches comme la création de posts et contenus pour les réseaux sociaux, le tout en utilisant moins de données.
Microsoft, qui indique avoir rendu disponible Phi-3 Mini sur les plateformes Azure, Ollama et Hugging Face, publiera prochainement les deux autres modèles de cette nouvelle famille : Phi-3 Small (7 milliards de paramètres) et Phi-3 Medium (14 milliards). Mais revenons à notre « Mini ».
20 avril 2024 à 08h38
Adapter les modèles à des tâches spécifiques, pour une IA moins coûteuse et plus verte
Sur le papier, Phi-3 serait donc aussi performant qu'un GPT 3.5 (la version gratuite actuelle de ChatGPT), tout en étant moins coûteux et moins gourmand en ressources. Ce n'est pas forcément idiot, et tout le monde pourrait en ressortir gagnant, en piochant parmi les modèles qui correspondent à ses usages.
Phi-3 pourrait ainsi très bien résumer l'essentiel d'un long document ou dégager des tendances industrielles en se basant sur des rapports d'études de marché. À partir d'une liste de 3 000 mots et d'une requête simple, Phi-3 a aussi été en mesure de créer des livres pour enfants.
Chez Anthropic par exemple, Claude 3 Haiku excelle dans la synthèse de gros documents qui comportent des graphiques. Du côté de Google, les modèles Gemma en version 2 milliards et 7 milliards de paramètres travaillent mieux avec de simples robots conversationnels ou pour une meilleure compréhension des langues. Llama 3, dont nous parlions plus haut et qui propulse le nouveau chatbot de Meta, brille dans l'aide au codage. On pourrait ainsi se diriger vers une sorte de marketplace géante des modèles de langage.
Source : The Verge