Les pratiques de Meta en matière d’entraînement de l’IA sont à nouveau mises en cause. Des documents internes récemment dévoilés révèlent l’utilisation présumée d’ouvrages piratés pour alimenter ses modèles.
![Meta aurait téléchargé et partagé des livres sur les réseaux torrent pour entrainer son IA © Ascannio / Shutterstock.com](http://pic.clubic.com/d6c517e92277108/1200x814/smart/meta-ai.jpg)
Les modèles d'intelligence artificielle ont besoin d'être entrainés pour fonctionner correctement et s'améliorer au fil des années. Pour ce faire, certaines entreprises n'hésitent pas à franchir la ligne jaune et à utiliser des sources d'information et de connaissances protégées par le droit d'auteur. Meta pourrait faire partie de ces mauvais élèves, à en croire plusieurs mails internes à l'entreprise, et cela pourrait lui coûter cher.
Plus de 80 Go de livres téléchargés illégalement selon des mails internes
Meta aurait ainsi téléchargé au moins 81,7 téraoctets de données issues de bibliothèques illégales, notamment Z-Library et LibGen, via le site Anna’s Archive. Meta avait admis en janvier dernier avoir téléchargé ces bibliothèques pour entrainer ses modèles de langage, mais selon des mails internes et non censurés dévoilés ces dernières heures, le groupe de Mark Zuckerberg aurait sciemment utilisé des ouvrages couverts par les droits d'auteur de manière industrielle.
L’affaire prend dans le même temps une tout autre forme avec l’évocation du seeding, une pratique qui consiste non seulement à télécharger du contenu via un réseau torrent, mais également à le partager. Un ingénieur de Meta, Nikolay Bashlykov, avait dès avril 2023 exprimé son malaise face à l’utilisation de fichiers torrents depuis un ordinateur de l’entreprise, soulignant les risques juridiques potentiels. « Télécharger en torrent depuis un ordinateur portable d’entreprise, ça ne semble pas correct », écrivait-il alors, l'esprit léger, dans son message accompagné d'un émoji.
Son inquiétude s’est renforcée quelques mois plus tard, lorsqu’il a alerté la direction sur le fait que le processus de téléchargement impliquait inévitablement une redistribution des fichiers tout à fait illégale. Malgré ces avertissements, Meta aurait poursuivi cette approche jusqu’en avril 2024, dissimulant son activité en évitant l’utilisation des serveurs de Facebook. Un autre mail évoque d'ailleurs explicitement les mesures appliquées et un « mode furtif » pour éviter de créer un lien entre l'entreprise et le partage des ouvrages piratés.
![Les livres piratés auraient été aussi partagés par les équipes de Meta © ninefotostudio / Shutterstock](http://pic.clubic.com/24a961612145103/1200x800/smart/torrent.jpg)
Meta nie en bloc, mais sa défense semble compromise par ces révélations
La défense de Meta a jusqu’ici maintenu que l’utilisation de ces fichiers relevait du « fair use », un concept du droit américain permettant dans certains cas l’utilisation de contenus protégés à des fins de recherche ou d’innovation. Les auteurs réunis autour de cette action en justice ne l'entendent pas de cette oreille et soulignent que des actes similaires, bien moindres en volume, ont par le passé conduit à des poursuites.
Ces révélations viennent appuyer les accusations portées par les auteurs, qui ont attaqué le géant de Palo Alto en justice. « L’ampleur du programme de téléchargement illégal de Meta est stupéfiante », expliquent-ils dans leur plainte. L’accusation réclame désormais à la justice d'entendre certains cadres de Meta impliqués dans la décision de recourir à LibGen. Parmi eux, Mark Zuckerberg lui-même est cité, alors qu’il avait indiqué ne pas être au courant de cette affaire. Des échanges internes laissent pourtant entendre qu'une remontée d'information a eu lieu et que le dirigeant pourrait avoir été informé, mais tout cela reste trop flou pour constituer une preuve.
Meta n’a pas encore officiellement réagi aux dernières révélations. L'entreprise a affirmé précédemment que « les plaignants ne démontrent pas un seul cas où un livre a été téléchargé par un tiers via Meta en torrent, encore moins que leurs propres livres ont été distribués par Meta ». La diffusion de ces e-mails fragilise aujourd'hui sa défense et pourrait conduire à un procès en bonne et due forme, qui met en lumière les largesses prises par les géants de la tech pour entrainer leurs modèles d'IA.
Source : Ars Technica
30 décembre 2024 à 11h39