Une IA éthique concurrente de ChatGPT n’empiétant pas sur le droit d’auteur ? Cette start-up française y croit !

Publié le 22 mars 2024 à 15h12

Enfin une IA éthique sur le marché ? © Anton Gvozdikov / Shutterstock

Ils savaient que c'était impossible, et ils l'ont quand même fait. Alors que les géants du secteur de l'IA ont toujours justifié leur collecte agressive de données par la nécessité de procéder ainsi, la start-up française Pleias montre qu'il est possible d'entraîner un LLM sans empiéter sur le droit d'auteur.

Ce mercredi 20 mars, des chercheurs ont sorti ce qu'ils estiment être le plus large LLM n'utilisant que des données et des contenus du domaine public. Le modèle, appelé Common Corpus, serait à peu près équivalent à GPT-3, et a été développé en collaboration avec plusieurs laboratoires européens et avec le soutien du ministère de la culture en France.

Selon OpenAI, la tâche était pourtant impossible

Lorsque l'entreprise ou ses dirigeants sont interrogés sur la question, OpenAI est catégorique. Le seul moyen de développer des intelligences artificielles toujours plus performantes est de cesser de s'embarrasser à respecter des concepts datés comme le copyright ou le droit d'auteur. Il s'agit d'ailleurs de la ligne officielle de défense de l'entreprise au cours des déjà nombreux procès qui ont été intentés contre elle sur le sujet. En effet, pour elle, puisque les intelligences artificielles vont profiter à l'humanité, utiliser des contenus dont elle n'a pas les droits pour les entraîner est une utilisation légitime, qui ne devrait pas être contestée. Cette position est d'ailleurs partagée par d'autres géants du secteur, Google en tête.

Pourtant, le développement d'IA « éthiques », en tout cas sur cette question, n'est pas impossible, et plusieurs entreprises se sont penchées depuis des années maintenant sur la question. C'est le cas de Pleias, qui a développé Common Corpus, un modèle n'utilisant que des données disponibles dans le domaine public, et qui l'a publié sur Hugging Face, une plateforme d'IA open source.

Il s'agit du premier modèle du genre certifié par l'organisation américaine Fairly Trained, qui indique les modèles entraînés de façon éthique. Si Pleias est à l'origine du projet et le coordonne, la start-up a travaillé à sa conception en collaboration avec d'autres organisations européennes et avec des financements du ministère de la Culture.

Sam Altman, président d'OpenAI © TechCrunch

Un corpus équivalent à celui de GPT-3

Avec 500 milliards de tokens comme base de données, Common Corpus est encore loin derrière les derniers modèles de pointe, puisque cela correspond à peu près à ce qui avait été utilisé pour GPT-3. S'il faut saluer l'effort, sans oublier le fait qu'une telle vision soit également un argument de vente, un tel procédé de développement présente également des limites.

La première d'entre elles est liée au domaine public, justement. La loi peut varier d'un pays à l'autre, mais en France, une œuvre entre dans le domaine public à partir de 70 ans après le décès de son auteur. Les données d'entraînement sont donc pour une large partie très datées, et un tel modèle ne peut vraisemblablement pas être lié directement à Internet de la même manière que le sont ses homologues les plus avancés, pas concernés par ces considérations.

Il est bien sûr possible d'y ajouter des textes et autres œuvres avec l'accord de leurs auteurs, mais le procédé est pour l'instant bien plus complexe et laborieux que de se passer de leur avis.

Sources : Wired, LePtiDigital

Par Vincent Mannessier

Référencement logiciel

Intelligence artificielle

Propriété intellectuelle

Comparateur de produits tech – Guides et sélections Clubic

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (4)

jvachez

Vu que les auteurs utiliseront eux mêmes de plus en plus l’IA pour être plus productifs. Les droits d’auteur devront accepter la présence de l’IA, il n’y aura pas d’autres choix car sinon il faudrait faire des IA qui ne savent pas écrire.

somoved

« une œuvre entre dans le domaine public à partir de 70 ans après le décès de son auteur »
C’est fou mes cours sur le droit de propriété intellectuelles ne disaient pas ca, c’était en 2007 cela a pu changer.
C’est une énorme simplification (je me base que sur ma mémoire). Un exemple bien marrant l’annuaire par exemple c’est un oeuvre (au sens de la loi) et vu que la société faisant la mise à jour de cette base de données tous les ans alors les droits sont renouveler tous les ans.
Et toujours de mémoire, c’était du moment ou l’oeuvre à été rendu publique ou de sa création que le début de la protection court.
Donc un concert enregistré dans les année 1950 est forcement libre de droit en France.
Par contre une musique classique (composé en 1700 par exemple), interprété en 2000 ne sera dans le domaine publique qu’en 2070.

Pour des spectacle vivants, vu que l’oeuvre évolue au fur et à mesure des représentations, ca doit être la fin d’exploitation commercial qui fait foi ?

Le droit de la propriété intellectuelle est très très compliqué.

MattS32

Non, c’est bien 70 ans après la mort de l’auteur (en France, parce que ça peut aussi différer en fonction du pays) avec même des prolongations dans certains cas particuliers (en France par exemple les droits sont prolongés pour les auteurs morts pour la France, en partant du principe qu’ils auraient dû mourir plus tard).

Par exemple, Tintin entrera dans le domaine public en 2054, Hergé étant mort en 1983.

Pour un enregistrement de musique par contre il y a deux types de droits, les droits d’auteurs, pour les compositeurs et les paroliers, jusqu’à 70 ans après leur mort, et les droits d’interprètes, qui ont un régime différents, et dont la durée est de 50 ans à partir de la date d’interprétation.

Un enregistrement des Beatles datant des années 60 n’est pas exemple plus soumis aux droits d’interprètes, mais l’est encore aux droits d’auteur. À l’inverse, un enregistrement récent de Mozart est soumis aux droits d’interprètes, mais pas aux droits d’auteur. Et le dernier tube de la star du moment est soumis aux deux.

mcbenny

« Par exemple, Tintin entrera dans le domaine public en 2054, Hergé étant mort en 1983. »
Hergé ayant été Belge, et pas mort pour la France, Tintin libre de droits en 2054, c’est simplement les 70 ans règlementaires.