Mistral et NVIDIA font équipe pour nous concocter NeMo, un nouveau modèle qui a plus d'un tour dans son sac ! Avec ses 12 milliards de paramètres et une mémoire d'éléphant capable de jongler avec 128 000 tokens, ce petit prodige promet de secouer le cocotier de l'IA générative.
Alors que NVIDIA connait une croissance sans précédent grâce à l'intelligence artificielle, l'entreprise multiplie les partenariats avec des institutions comme Opera mais aussi des jeunes pousses tel que Mistral. C'est avec cette dernière que le fondeur a décidé de lancer NeMo, un modèle optimisé pour le matériel RTX.
Mistral 7B a trouvé
NeMo se distingue par sa taille relativement modeste de 12 milliards de paramètres, qui lui permet d'être déployé sur carte graphique milieu de gamme avec 8 Go de VRAM minimum. C'est moins que ce que demande un modèle moins puissant comme Mistral 7B. Le revers de la médaille, et c'est ici que le partenariat avec Nvidia intervient : NeMo demande du matériel doté de l'architecture Ampère. Malgré cette compacité, le modèle affiche des performances remarquables en matière de raisonnement, de connaissances générales et de codage. Son atout majeur réside dans sa fenêtre de contexte exceptionnelle de 128 000 tokens, lui permettant d'analyser et de générer des textes beaucoup plus longs que la plupart de ses concurrents de taille similaire, et de se hisser au niveau de GPT-4o et Claude 3.
L'autre point fort de NeMo est son caractère multilingue. Le modèle excelle dans une dizaine de langues majeures, dont le français, l'allemand, l'espagnol, le chinois et, chose plus rare, l'arabe ! Cette polyvalence est renforcée par l'utilisation d'un nouveau tokenizer baptisé Tekken, qui compresse plus efficacement le texte dans ces différentes langues. De plus, NeMo est distribué sous licence Apache 2.0, ce qui signifie qu'il peut être librement utilisé et modifié par les entreprises et les chercheurs. Cette ouverture devrait favoriser son adoption rapide et stimuler l'innovation dans le domaine de l'IA générative. Si vous avez le matériel pour faire tourner le modèle, reste à vous équiper d'un logiciel d'inférence comme Llama.cpp.
- Peut tourner en local selon votre configuration
- Open-source
- API peu coûteuse