Nouvelle polémique autour de Meta : l’entreprise est accusée d’avoir eu recours à des milliers d’œuvres protégées par le droit d’auteur afin de développer son intelligence artificielle, Llama. D’après des documents déposés en justice, Mark Zuckerberg aurait même donné son feu vert à ce procédé, malgré les avertissements de certains de ses collaborateurs.
Depuis plusieurs mois, les modèles d’intelligence artificielle enflamment la scène technologique, avec des capacités de génération de texte, d’images et même de vidéos de plus en plus sophistiquées. Pour parvenir à ces résultats époustouflants, les IA ont besoin de quantités gigantesques de données, souvent issues d’internet. Or, la frontière entre « utilisation équitable » et l’appropriation illégale de contenus protégés devient plus floue que jamais.
Un modèle ambitieux, une base de données controversée
Dans cette affaire, Meta se retrouve au cœur d’un débat sur l’éthique et la légalité de l’entraînement des modèles de langage. Les plaignants, dont font partie des auteurs renommés, dénoncent l’utilisation de leurs œuvres sans autorisation. Au centre de leurs griefs : un vaste ensemble de textes appelé LibGen, réputé pour contenir des ouvrages piratés. Les enjeux vont au-delà de la simple violation de droits d’auteur, car il s’agit aussi de l’équilibre à trouver entre avancée technologique et respect du cadre légal.
Llama, la nouvelle intelligence artificielle de Meta, se veut un modèle puissant, capable de rivaliser avec les concurrents déjà en place. Les équipes de Meta avaient annoncé vouloir entraîner Llama sur un supercalculateur dédié, présenté comme l’un des plus rapides au monde pour l’IA. L’idée était de donner au modèle un accès quasi illimité à des milliers de sources textuelles.
Toutefois, selon la plainte, une partie de cette gigantesque base de données proviendrait de livres et d’articles hébergés sur le site LibGen, qui propose des documents considérés comme piratés. Malgré les mises en garde internes, la direction de Meta aurait maintenu son plan. Pour les détracteurs, cette démarche révèle que l’entreprise aurait préféré la vitesse et l’efficacité de l’entraînement à une négociation en bonne et due forme avec les ayants droit.
- Intégration multiplateforme
- Modèles open-source Llama 3
- Fonctionnalités de génération d'images et vidéos
Tempête juridique et débat sur l'utilisation « juste »
Cette polémique a immédiatement suscité une série de réactions de la part de la communauté créative, notamment des écrivains dont les œuvres se seraient retrouvées dans le lot. Certains dénoncent une pratique « abusive » qui profite directement du travail intellectuel protégé, sans compensation ni consentement. De manière générale, la situation remet sur la table la question du fair use, principe légal américain qui autorise, sous certaines conditions, l’utilisation de contenus protégés pour créer une œuvre dérivative ou transformer l’original.
Mais les créateurs victimes de ce recours aux données piratées affirment qu’aucune transformation notable ne justifierait une « utilisation équitable ». Au contraire, ils y voient une extraction brute de données, amorcée uniquement pour alimenter un outil commercial. D’un point de vue juridique, l’équilibre entre innovation et respect des droits d’auteur demeure incertain et pourrait façonner l’avenir de l’intelligence artificielle.
Source : Neowin
30 décembre 2024 à 11h37