Meta avoue avoir entraîné son IA avec des livres... piratés !

Publié le 15 janvier 2024 à 17h25

Llama 2, un rat de bibliothèque hors-la-loi ? © Vasilyev Alexandr / Shutterstock

Meta se retrouve au cœur d'une polémique. En effet, la société admet qu'elle a entraîné ses modèles d'IA grâce à un ensemble de livres piratés. De quoi raviver les flammes du débat concernant les droits d'auteur et l'intelligence artificielle.

Les géants de la tech, lorsqu'ils sont confrontés à la problématique des droits d'auteur quand il s'agit de l'IA, joue souvent à un jeu dangereux. Meta ne fait pas exception et répond actuellement à une action en justice entamée par plusieurs auteurs : oui, l'entreprise aurait bien utilisé une partie de la base de données Books3 (qui inclue de nombreux livres piratés) afin d'entraîner ses modèles Llama. Une révélation plutôt scandaleuse, quand on connaît l'effort de vigilance dont font preuve les détenteurs de droits d'auteur pour se faire respecter.

Books3 : un outil controversé au service de l'IA

Books3 est une base de données créée en 2020 par Shawn Presser, un chercheur en IA. Celle-ci rassemblait près de 37 Go de livres piratés (environ 200 000 ouvrages) issus du site Bibliotik et était hébergée par le collectif baptisé The Eye. L'idée était de favoriser l'innovation dans le domaine de l'IA.

Meta et d'autres, comme OpenAI, ont donc pioché allégrement dans cette base de données pour affiner leurs modèles d'IA générative. Une utilisation à la limite de la légalité, qui a nécessairement attiré l'attention des éditeurs et des auteurs.

Aveu de Meta à un tribunal fédéral de Californie. L'entreprise "avoir utilisé des extraits de la base de données Books3 pour l'entraînement de son modèle d'IA Llama © Capture d'écran / Meta

Réaction des détenteurs de droits et implications légales

Un ensemble assez varié de détenteurs de droits s'est donc rebiffé contre Meta, OpenAI et d'autres entreprises développant des modèles d'IA hors du cadre légal. Parmi ceux-ci, on peut trouver : des auteurs individuels, des maisons de disque, des artistes du domaine visuel et même le New York Times.

La majorité de ces poursuites comportent un volet lié au piratage et accusent ces sociétés d'user de contenus protégées sans proposer de compensation adéquate. Sous la pression d'un collectif danois anti-piratage, Rights Alliance, The Eye a supprimé Books3 lors de l'été 2023.

La défense de Meta

Lors d'un procès intenté par Sarah Silverman (comédienne, chanteuse et écrivaine), Richard Kadrey (écrivain) et d'autres détenteurs de droits, Meta a avoué. Elle aurait bien utilisé des parties de Books3 afin de muscler le jeu de ses deux modèles d'IA, Llama 1 et Llama 2. Cependant, elle a nié d'autres allégations proférées à son encontre. Pour sa défense, l'entreprise a invoqué le fair use (utilisation équitable), un élément de défense juridique qui pourrait bien faire pencher la balance de leur côté.

Aussi contradictoire que cela puisse paraître, la doctrine légale du fair use permet l'utilisation de matériel protégé par le droit d'auteur sans pour autant avoir la permission des détenteurs des droits. Certaines circonstances spécifiques sont cependant nécessaires pour que cette doctrine soit appliquée. Meta tient la ligne de défense suivante : elle reconnaît avoir utilisé Books3, mais conteste entièrement la nécessité d'obtenir le consentement ou d'offrir une compensation pour avoir utilisé ces œuvres protégés. Une position franchement contestable au vu de la hausse de leur chiffre d'affaires plutôt importante sur l'année 2023 permise grâce à l'engouement autour de l'intelligence artificielle.

Cette affaire juridique mettant en tension l'IA et les droits d'auteur est loin d'être la dernière. En tout cas, tant qu'une réglementation ferme ne définira pas de nouveaux standards éthiques et juridiques encadrant l'industrie de l'intelligence artificielle. Cet ensemble de procès, qui pourrait atteindre la Cour suprême, pourrait avoir des répercussions positives sur cet aspect précis. Enfin, ça, c'est si l'on considère cette problématique d'un point de vue optimiste.

Source : Torrent Freak

Par Camille Coirault

Intelligence artificielle

Régulation numérique

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (8)

a-snowboard

« Une utilisation à la limite de la légalité, qui a nécessairement attiré l’attention des éditeurs et des auteurs. »

Utiliser des livres piratés, c’est à a la limite de la légalité ? Pinaise, vous arrivez carrément à faire une relecture du droit !

Sinon pour revenir à l’actu, la sanction devrait être simple : arrêt de toute activité IA de la part des entreprises qui ont utilisés des ressources illégales, amende record et impossibilité de générer un nouvel IA sans suppervision extérieure avant 5ans.

Ca devrait calmer tout le monde.

Mais bon, ils ont tout compris : on fait, si ça passe tant mieux, si on se fait chopper, on s’excuse, on paye, mais au moins on aura fait et entrainé notre IA.

En gros, vaut mieux faire la connerie et demander le pardon, ça sera moins couteux que de faire bien comme il faut.

Monde de m***

gothax

La justice n’a-t-elle pas une balance à l’équilibre ? Pas dans ce monde
J’interdirais méta … Soyons fou
D’accord avec @a-snowboard

PEPSIMAX

A la limite de la limite de la limite de l’illégalité. Après on se demande pourquoi tous ces GAFAM n’ont pas fait grand chose contre le piratage finalement…

V-Luminis

Bonjour,

La pratique me révulse aussi, mais je suis obligé de rester factuel. La doctrine du « fair use » aux USA pourrait bien protéger Meta. C’est ce qu’on appelle un vide juridique, malheureusement. Aucune relecture du droit de ma part, je ne suis pas juriste et n’ai pas les compétences pour me prononcer avant les juges fédéraux. Je ne fais que reporter un fait d’actualité, ce qui ne signifie pas que je suis d’accord avec ce genre de pratiques.

Squeak

Petit à petit, les langues se délient. Après, je ne suis pas sûr qu’il va y avoir des sanctions puisque maintenant les modèles d’IA sont là et utilisés massivement, mais bon, voilà encore une petite tache sur le tableau des IA… Il ne faut pas rêver, ils ne vont pas refaire l’IA en partant de zéro (sur une bonne base), il faut faire avec.

Breizhoo

« Meta admet qu’elle a entraîné ses modèles d’IA grâce à 37 Go de livres piratés (environ 200 000 ouvrages) »
« Une utilisation à la limite de la légalité »

ayaredone

Ils auraient dû lui prendre une carte à la bibliothèque

youmetooandyou

chatGPT s’est entraîné sur quoi au fait ?