Ils savaient que c'était impossible, et ils l'ont quand même fait. Alors que les géants du secteur de l'IA ont toujours justifié leur collecte agressive de données par la nécessité de procéder ainsi, la start-up française Pleias montre qu'il est possible d'entraîner un LLM sans empiéter sur le droit d'auteur.
Ce mercredi 20 mars, des chercheurs ont sorti ce qu'ils estiment être le plus large LLM n'utilisant que des données et des contenus du domaine public. Le modèle, appelé Common Corpus, serait à peu près équivalent à GPT-3, et a été développé en collaboration avec plusieurs laboratoires européens et avec le soutien du ministère de la culture en France.
Selon OpenAI, la tâche était pourtant impossible
Lorsque l'entreprise ou ses dirigeants sont interrogés sur la question, OpenAI est catégorique. Le seul moyen de développer des intelligences artificielles toujours plus performantes est de cesser de s'embarrasser à respecter des concepts datés comme le copyright ou le droit d'auteur. Il s'agit d'ailleurs de la ligne officielle de défense de l'entreprise au cours des déjà nombreux procès qui ont été intentés contre elle sur le sujet. En effet, pour elle, puisque les intelligences artificielles vont profiter à l'humanité, utiliser des contenus dont elle n'a pas les droits pour les entraîner est une utilisation légitime, qui ne devrait pas être contestée. Cette position est d'ailleurs partagée par d'autres géants du secteur, Google en tête.
Pourtant, le développement d'IA « éthiques », en tout cas sur cette question, n'est pas impossible, et plusieurs entreprises se sont penchées depuis des années maintenant sur la question. C'est le cas de Pleias, qui a développé Common Corpus, un modèle n'utilisant que des données disponibles dans le domaine public, et qui l'a publié sur Hugging Face, une plateforme d'IA open source.
Il s'agit du premier modèle du genre certifié par l'organisation américaine Fairly Trained, qui indique les modèles entraînés de façon éthique. Si Pleias est à l'origine du projet et le coordonne, la start-up a travaillé à sa conception en collaboration avec d'autres organisations européennes et avec des financements du ministère de la Culture.
Un corpus équivalent à celui de GPT-3
Avec 500 milliards de tokens comme base de données, Common Corpus est encore loin derrière les derniers modèles de pointe, puisque cela correspond à peu près à ce qui avait été utilisé pour GPT-3. S'il faut saluer l'effort, sans oublier le fait qu'une telle vision soit également un argument de vente, un tel procédé de développement présente également des limites.
La première d'entre elles est liée au domaine public, justement. La loi peut varier d'un pays à l'autre, mais en France, une œuvre entre dans le domaine public à partir de 70 ans après le décès de son auteur. Les données d'entraînement sont donc pour une large partie très datées, et un tel modèle ne peut vraisemblablement pas être lié directement à Internet de la même manière que le sont ses homologues les plus avancés, pas concernés par ces considérations.
Il est bien sûr possible d'y ajouter des textes et autres œuvres avec l'accord de leurs auteurs, mais le procédé est pour l'instant bien plus complexe et laborieux que de se passer de leur avis.
Sources : Wired, LePtiDigital