Jais-Chat est un modèle de langage en arabe qui parvient à faire de l'ombre à certains gros poissons de l'industrie.
Vous avez forcément déjà entendu parler de ChatGPT, mais connaissez-vous son concurrent Jais-Chat ? Baptisée d'après le nom d'une montagne située aux Émirats arabes unis, cet agent conversationnel boosté à l'IA s'impose comme la référence du genre en langue arabe.
Meilleur que Llama 2 et Bloomz
Ce chatbot est l'œuvre de la société américaine Cerebras Systems, spécialisée en intelligence artificielle, en collaboration avec Inception, une filiale du groupe d'investissement G42 appartenant à Abu Dhabi.
Jais-Chat impressionne par ses performances très au-dessus de la moyenne. Son modèle de langage a réussi à battre ceux qui sont considérés comme des pointures du domaine dans différents tests, comme les questionnaires à choix multiples de l'Université de Californie à Berkeley et le HellaSwag de l'Institut Allen.
Jais-chat a notamment surpassé le modèle linguistique Llama 2 développé par Meta, populaire chez les développeurs, car open source contrairement au GPT-4 d'OpenAI dont les API sont payantes. Autre référence des modèles de langage open source, Bloomz a également dû s'incliner face à Jais-Chat.
13 milliards de paramètres
Pour arriver à ces résultats, Cerebras et Inception ont fait le choix de limiter Jais-Chat à deux langues : l'anglais et l'arabe. L'ensemble de données sur lequel il s'est entraîné est composé à 29 % d'arabe, 59 % d'anglais et 12 % de code.
Avec 13 milliards de paramètres, le modèle est loin des 175 milliards de GPT-3, mais parvient tout de même à tirer son épingle du jeu grâce à une base de données soigneusement sélectionnée et à la limitation à deux langues.
« Ce qui était intéressant, c'est que l'arabe améliorait aussi l'anglais », explique Andrew Feldman, co-fondateur et PDG de Cerebras, lors d'un entretien accordé à ZDNET. « Nous avons fini par obtenir un modèle aussi performant que Llama en anglais, bien que nous l'ayons entraîné sur environ un dixième des données », fait-il savoir.
L'anglais domine le Web, et donc les modèles de langage
Il est possible d'écrire les prompts dans Jais-Chat aussi bien en anglais qu'en arabe, et le chatbot peut répondre également dans ces deux langues. L'utilisateur peut par exemple écrire en anglais, mais préciser qu'il souhaite une réponse en arabe.
« Nous donnons à 400 millions d'arabophones une voix dans l'IA. C'est cela de démocratiser l'IA. C'est la langue principale de 25 pays », déclare Andrew Feldman, qui tacle ainsi gentiment les autres entreprises qui parlent de démocratiser l'IA, mais qui se copient toutes les unes les autres.
L'anglais est largement privilégié par les IA génératives. « Les plus grands ensembles de données reposent sur le scraping de l'Internet, et celui-ci est principalement en anglais », regrette Andrew Feldman. Une étude de Meta publiée en 2022 indiquait que 63,7 % des sites web sont en langue anglaise, alors que seuls 25,9 % des internautes la parlent.
Pour obtenir de meilleures performances dans les autres langues, les modèles de langage vont devoir changer de stratégie.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code
Source : ZDNet