C'est ballot ! Des ingénieurs d'OpenAI ont accidentellement supprimé des données utiles à l'enquête portant sur l'utilisation du contenu du New York Times et du Daily News pour entraîner ses intelligences artificielles (IA).

Sam Altman, le P.-D.G. d'OpenAI. © Meir Chaimowitz / Shutterstock
Sam Altman, le P.-D.G. d'OpenAI. © Meir Chaimowitz / Shutterstock

Le célèbre quotidien new-yorkais a déposé plainte contre la start-up en décembre 2023, l'accusant de « copier et utiliser des millions » d'articles pour former les modèles de langage qui alimentent ChatGPT. L'ingestion de ces données par les IA leur aurait permis de « générer des résultats qui récitent mot pour mot le contenu du Times, le résument étroitement et imitent son style expressif », détaille la plainte.

Suppression apparemment accidentelle

L'enquête suit son cours et, jouant le jeu, OpenAI a accepté de fournir deux machines virtuelles, c'est-à-dire des ordinateurs simulés, afin de permettre aux avocats des médias d’explorer les ensembles de données d’entraînement, à la recherche du contenu protégé par le droit d'auteur.

Problème, les ingénieurs de l'entreprise ont supprimé les informations stockées au sein de ce dispositif, compromettant le travail de 150 heures effectué par les avocats depuis le début du mois de novembre. Si OpenAI est parvenue à récupérer une grande partie de ces données, la structure des dossiers et les noms de fichiers ont été perdus, les rendant tout bonnement inutilisables pour localiser les articles concernés.

Heureusement pour l'entreprise, les avocats croient en sa bonne foi et ne suspectent pas de manipulation intentionnelle… Quant aux possibles répercussions sur l'enquête, elles n'ont pour l'heure pas été abordées.

Les modèles d'OpenAI sont entraînées sur une grande variété de contenus disponibles sur la toile. © Shutterstock
Les modèles d'OpenAI sont entraînées sur une grande variété de contenus disponibles sur la toile. © Shutterstock

Accords de licence

Selon OpenAI, l'utilisation des articles du New York Times pour la formation de ses IA relève du « faire use », faisant référence à un principe du droit anglo-saxon permettant l'utilisation d'une œuvre protégée dans certains cas. La société considère également que la plainte est « sans mérite ».

En parallèle, elle a multiplié les accords de licence avec les médias, lui permettant d'utiliser effectivement leurs articles pour former ses modèles, en échange d'une rémunération.

D'autres start-up spécialisées dans l'IA générative sont ciblées par de grands médias. C'est notamment le cas de Perplexity AI, qui est visée par une plainte de Dow Jones, la maison mère du Wall Street Journal, et du New York Post.

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2024

10 novembre 2024 à 19h08

Comparatifs services

Source : TechCrunch