es modèles de langage comme ChatGPT sont entraînés sur d'immenses quantités de données textuelles, dont certains protégés par le droit d'auteur. © Vitor Miranda / Shutterstock
es modèles de langage comme ChatGPT sont entraînés sur d'immenses quantités de données textuelles, dont certains protégés par le droit d'auteur. © Vitor Miranda / Shutterstock

OpenAI, le géant de l'IA à l'origine de ChatGPT, se retrouve au cœur d'une tempête juridique et éthique. Accusée d'avoir ingéré des milliards de contenus protégés sans autorisation, l'entreprise marche sur un fil.

Dans la Silicon Valley, un contentieux virulent se prépare. OpenAI se retrouve au cœur d'un imbroglio où s'entrechoquent innovation technologique et propriété intellectuelle. L'entreprise, valorisée à plus de 100 milliards de dollars, navigue en eaux troubles, jonglant entre accords éditoriaux surprenants et procès potentiellement dévastateurs. Cette saga soulève des questions fondamentales sur l'avenir du web, de la recherche d'information dans sa globalité et de l'intelligence artificielle elle-même.

L'appétit gargantuesque de l'IA pour les données

Le modèle GPT d'OpenAI a fait des bonds de géant en ingurgitant le web tout entier, archives de presse comprises. Un festin numérique qui fait grincer des dents. Axel Springer, Condé Nast, l'Associated Press... autant de grands noms dont le contenu aurait été aspiré sans leur bénédiction. Face à ce pillage présumé, OpenAI tente de calmer le jeu en signant des accords avec ces mêmes éditeurs. Une stratégie qui ressemble à s'y méprendre à un mea culpa déguisé en partenariat stratégique.

Selon le communiqué annonçant l'accord avec Axel Springer, le plus groupe médiatique allemand, ces partenariats visent à « enrichir l'expérience des utilisateurs de ChatGPT en ajoutant du contenu récent et faisant autorité sur une large gamme de sujet ». Un point essentiel de ces accords : l'accès à du contenu récent permet à OpenAI de s'approcher des résultats en temps réel, un avantage considérable sur le marché de la recherche en ligne.

D'après les colonnes de The Information, OpenAI proposerait entre 1 et 5 millions de dollars par an aux éditeurs. Des estimations basées sur les chiffres publics suggèrent un plafond de 10 millions de dollars annuels par publication. Une somme dérisoire au regard des enjeux, surtout quand on sait que l'ancien chercheur en chef d'OpenAI, Ilya Sutskever, gagnait à lui seul 1,9 million de dollars en 2016. Danielle Coffey, PDG de la News Media Alliance, souligne la stratégie d'OpenAI : « Ils cherchent à préserver leurs droits d'utilisation sous couvert du fair use. Ils ne plaideraient pas cela devant un tribunal s'ils n'y croyaient pas. »

Tout s'achète si on pose les millions sur la table ? © CHIEW / Shutterstock
Tout s'achète si on pose les millions sur la table ? © CHIEW / Shutterstock

Le New York Times monte au créneau

Mais tous ne sont pas prêts à passer l'éponge et de nombreux auteurs ont déjà OpenAI dans le viseur. Le prestigieux New York Times a d'ailleurs dégainé l'arme juridique, accusant OpenAI de violation flagrante des droits d'auteur. L'enjeu ? Un petit pactole de 7,5 milliards de dollars, rien que ça. Cette action en justice pourrait bien faire l'effet d'une bombe H dans le monde de l'IA.

Le Times affirme avoir tenté de négocier avec OpenAI pour autoriser l'utilisation de son travail, mais ces négociations ont échoué. Il est probable que les sommes proposées par OpenAI aient été jugées quasiment insultantes par le journal.

Si le Times l'emporte, c'est tout l'écosystème qui pourrait être redessiné, avec à la clé une possible concentration du pouvoir entre les mains des géants technologiques, seuls capables d'absorber de tels coûts. Nicholas Garcia, conseiller politique chez Public Knowledge, s'inquiète : « Je crains que nous ne mettions en place un écosystème où seules les plus grandes entreprises pourront se permettre d'accéder aux données d'entraînement ».

Le journal estime que l'utilisation non autorisée de son contenu pourrait lui avoir causé des milliards de dollars de dommages. © Matthew Nichols1 / Shutterstock

L'équilibrisme périlleux du « fair use »

OpenAI joue la carte du « fair use », cette notion juridique qui autorise, sous certaines conditions, l'utilisation non consentie de contenus protégés. Mais l'entreprise pourrait bien être victime de sa propre stratégie. En négociant des accords avec certains éditeurs, n'a-t-elle pas implicitement reconnu la valeur marchande de ces contenus, sapant ainsi sa propre défense ?

C'est tout le paradoxe d'une situation où chaque mouvement semble creuser un peu plus le piège dans lequel l'entreprise s'est engluée. Les tribunaux, peu habitués à traiter des cas impliquant l'IA, devront naviguer en terrain inconnu. Comme la pornographie en matière de droit d'auteur, les juges reconnaissent une violation uniquement quand ils en voient une.

Cette incertitude juridique pourrait freiner l'innovation, certaines entreprises préférant renoncer à l'utilisation de données publiques par crainte de poursuites. Eric Schmidt, ancien PDG de Google, avait d'ailleurs conseillé aux entrepreneurs de faire comme bon leur semble avec le contenu protégé par le droit d'auteur et « d'embaucher une armée d'avocats pour nettoyer les dégâts ».

Au-delà du terrain juridique, OpenAI semble également chercher à redorer son blason. L'entreprise a annoncé au mois de juillet l'arrivée de SearchGPT, son propre moteur de recherche, encore au stade de prototype. Cette initiative pourrait bien bouleverser le marché dominé par Google, d'autant plus que ce dernier a vu la qualité de ses résultats de recherche se dégrader ces dernières années.

Les 5 meilleurs chatbots à intelligence artificielle (2024)
Mode lancée avec ChatGPT fin 2022, les chatbots à intelligence artificielle ont semblé fleurir sans jamais finir dans l'année qui a suivi. Simples wrappers de la technologie d'OpenAI pour beaucoup d'entre eux, un écrémage était nécessaire. En 2024, le paysage est plus clair avec plusieurs champions sortis victorieux de la mêlée.

Dans cette bataille juridique et technologique, l'issue reste encore largement incertaine. Une chose l'est cependant : la résolution de cette équation complexe façonnera l'avenir de l'IA et, par extension, notre rapport à l'information dans le monde numérique. OpenAI brûle la chandelle par les deux bouts et pourrait perdre 5 milliards de dollars cette année. Pour justifier sa valorisation astronomique, l'entreprise a besoin d'un chemin vers la rentabilité et la conquête du marché de la recherche en ligne pourrait être ce chemin.

Mais des questions fondamentales restent en suspens : les utilisateurs veulent-ils vraiment de ces « moteurs de réponses » ? Et si oui, sont-ils économiquement viables ? Entre les coûts élevés de l'IA et les menaces de démantèlement pesant sur Google, récemment déclaré en situation de monopole dans une affaire antitrust, l'avenir reste plus que nébuleux. En fin de compte, concilier l'innovation technologique avec le respect des droits d'auteur et la viabilité économique des créateurs de contenu est une équation d'une rare complexité. Équation qui pourrait bien déterminer l'avenir du web tel que nous le connaissons dans les prochaines années.

Source : The Verge