Meta se retrouve au cœur d'une polémique. En effet, la société admet qu'elle a entraîné ses modèles d'IA grâce à un ensemble de livres piratés. De quoi raviver les flammes du débat concernant les droits d'auteur et l'intelligence artificielle.
Les géants de la tech, lorsqu'ils sont confrontés à la problématique des droits d'auteur quand il s'agit de l'IA, joue souvent à un jeu dangereux. Meta ne fait pas exception et répond actuellement à une action en justice entamée par plusieurs auteurs : oui, l'entreprise aurait bien utilisé une partie de la base de données Books3 (qui inclue de nombreux livres piratés) afin d'entraîner ses modèles Llama. Une révélation plutôt scandaleuse, quand on connaît l'effort de vigilance dont font preuve les détenteurs de droits d'auteur pour se faire respecter.
Books3 : un outil controversé au service de l'IA
Books3 est une base de données créée en 2020 par Shawn Presser, un chercheur en IA. Celle-ci rassemblait près de 37 Go de livres piratés (environ 200 000 ouvrages) issus du site Bibliotik et était hébergée par le collectif baptisé The Eye. L'idée était de favoriser l'innovation dans le domaine de l'IA.
Meta et d'autres, comme OpenAI, ont donc pioché allégrement dans cette base de données pour affiner leurs modèles d'IA générative. Une utilisation à la limite de la légalité, qui a nécessairement attiré l'attention des éditeurs et des auteurs.
Réaction des détenteurs de droits et implications légales
Un ensemble assez varié de détenteurs de droits s'est donc rebiffé contre Meta, OpenAI et d'autres entreprises développant des modèles d'IA hors du cadre légal. Parmi ceux-ci, on peut trouver : des auteurs individuels, des maisons de disque, des artistes du domaine visuel et même le New York Times.
La majorité de ces poursuites comportent un volet lié au piratage et accusent ces sociétés d'user de contenus protégées sans proposer de compensation adéquate. Sous la pression d'un collectif danois anti-piratage, Rights Alliance, The Eye a supprimé Books3 lors de l'été 2023.
La défense de Meta
Lors d'un procès intenté par Sarah Silverman (comédienne, chanteuse et écrivaine), Richard Kadrey (écrivain) et d'autres détenteurs de droits, Meta a avoué. Elle aurait bien utilisé des parties de Books3 afin de muscler le jeu de ses deux modèles d'IA, Llama 1 et Llama 2. Cependant, elle a nié d'autres allégations proférées à son encontre. Pour sa défense, l'entreprise a invoqué le fair use (utilisation équitable), un élément de défense juridique qui pourrait bien faire pencher la balance de leur côté.
Aussi contradictoire que cela puisse paraître, la doctrine légale du fair use permet l'utilisation de matériel protégé par le droit d'auteur sans pour autant avoir la permission des détenteurs des droits. Certaines circonstances spécifiques sont cependant nécessaires pour que cette doctrine soit appliquée. Meta tient la ligne de défense suivante : elle reconnaît avoir utilisé Books3, mais conteste entièrement la nécessité d'obtenir le consentement ou d'offrir une compensation pour avoir utilisé ces œuvres protégés. Une position franchement contestable au vu de la hausse de leur chiffre d'affaires plutôt importante sur l'année 2023 permise grâce à l'engouement autour de l'intelligence artificielle.
Cette affaire juridique mettant en tension l'IA et les droits d'auteur est loin d'être la dernière. En tout cas, tant qu'une réglementation ferme ne définira pas de nouveaux standards éthiques et juridiques encadrant l'industrie de l'intelligence artificielle. Cet ensemble de procès, qui pourrait atteindre la Cour suprême, pourrait avoir des répercussions positives sur cet aspect précis. Enfin, ça, c'est si l'on considère cette problématique d'un point de vue optimiste.
Source : Torrent Freak