La Bibliothèque nationale française (BNF) et l'Institut national de l'audiovisuel (INA) discutent actuellement avec des start-ups de l'IA hexagonale. L'objectif est de voir comment leurs énormes fonds pourront être partagés avec ces entreprises.
Quand les géants américains de la tech ont voulu développer des modèles de langage, qui alimentent leurs IA, ils ont dû leur offrir des volumes de données extrêmement impressionnants. Leurs équivalents hexagonaux, tels que Mistral, suivent le même chemin, et cherchent toutes les données en français qu'ils peuvent récolter pour muscler leurs IA. Et dans ce domaine, on fait difficilement mieux que la BNF et l'INA !
L'INA et la BNF en discussions avec les entreprises IA
L'écosystème français de l'IA, qui s'impose déjà au niveau européen, ne cesse de se développer. On le voit encore avec les discussions qui ont actuellement lieu entre l'INA, la BNF et un consortium de start-ups dirigé par la pépite national Mistral AI. L'objet de ces échanges ? Ouvrir les archives nationales - parmi les plus importantes au monde à ces sociétés.
Ces discussions sont importantes pour l'INA, puisqu'elles doivent permettre d'utiliser son stock phénoménal de données sans qu'il n'y ait d'infraction au droit d'auteur. La BNF, qui garde en majorité des œuvres libres de droits, prévoit de son côté de mettre à disposition une partie des 11 millions de documents qu'elle abrite. Et si l'on en croit l'institution, elle posséderait un véritable trésor dans ses sous-sols, sa collection étant « probablement l'un des plus grands réservoirs au monde de documents avec leurs métadonnées. »
Produire des algorithmes puissants en français
« C'est open source, mais pas open bar » a toutefois voulu tempérer un responsable de la BNF, dans un propos recueilli par Politico. Le média a pu par ailleurs échanger avec plusieurs responsables de ces discussions, qui lui ont affirmé espérer pouvoir commencer à utiliser les données en question dans les mois à venir.
Et l'objectif est simple : faire des IA en français de classe mondiale. Il faut en effet rappeler que les grands chatbots sont entraînés en anglais, hormis le cas des productions chinoises, ce qui les rend bien meilleurs dans cette lange que dans les autres idiomes. « Nous avons un certain nombre de clients français, et nous avons besoin des algorithmes les plus performants en français » rappelle ainsi le PDG d'Artefact, Vincent Luciani.
- Peut tourner en local selon votre configuration
- Open-source
- API peu coûteuse
Source : Politico