© Tinseltown / Shutterstock
© Tinseltown / Shutterstock

Sarah Silverman, célèbre comédienne américaine, vient de déposer une plainte contre Meta et OpenAI aux côtés de deux auteurs, Christopher Golden et Richard Kadrey. Les plaignants reprochent aux deux géants technologiques d'avoir utilisé leur travail pour entraîner leurs modèles de langage sans leur consentement.

Cette nouvelle plainte fait suite à une démarche similaire de la part de deux écrivains, qui ont intenté une procédure contre ChatGPT pour violation de leurs droits d'auteur.

Du contenu issu de « bibliothèques fantômes »

Le contenu utilisé pour entraîner les modèles aurait été acquis de manière illégale, selon la plainte, notamment sur des « bibliothèques fantômes » telles que Bibliotik, Library Genesis ou Z-Library. En ce qui concerne OpenAI, ChatGPT résume les différentes œuvres des auteurs, sans pour autant « reproduire les informations relatives à la gestion des droits d'auteur que les plaignants ont jointes à leurs œuvres publiées ».

La plainte qui vise Meta allègue que les livres des trois auteurs étaient accessibles dans les ensembles de données utilisées pour entraîner les modèles LLaMA. Or, l'un de ceux-ci, baptisé The Pile, est décrit comme ayant été assemblé à partir d'une « copie du contenu du tracker privé Bibliotik ».

Chacune des actions en justice contient 6 chefs d'accusation pour divers types de violations de droits d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs réclament des dommages et intérêts ainsi que la restitution des bénéfices.

© gguy / Shutterstock
© gguy / Shutterstock

Un flou juridique

Ce nouveau cas témoigne des grandes difficultés juridiques liées aux droits d'auteur pour les intelligences artificielles génératives, c'est-à-dire capables de générer du texte à partir d'une simple requête. Le son de cloche est le même pour les IA génératrices d'images comme Midjourney ou Stable Diffusion.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, expliquent avoir discuté avec de nombreux « écrivains, auteurs et éditeurs s'inquiétant de l'étrange capacité de ChatGPT à générer des textes similaires à ceux que l'on trouve dans des documents textuels protégés par le droit d'auteur, y compris des milliers de livres ».

Pour l'heure, aucune législation n'encadre clairement l'usage de ces technologies, qui sont entraînées sur de vastes données issues d'Internet ainsi que sur des œuvres textuelles et visuelles. L'AI Act, texte européen qui réglementera bientôt l'IA, devrait obliger les entreprises à citer le contenu sur lequel les modèles auront été entraînés. Les législateurs européens espèrent qu'il établira une norme et sera adapté dans le reste du monde.

Source : The Verge