Github : des utilisateurs veulent attaquer Microsoft qui utilise leur code pour alimenter son IA

Publié le 20 octobre 2022 à 12h47

Copilot, un outil de Microsoft boosté par l'IA, fait face à une potentielle action de groupe de codeurs open-source sur Github.

L'intelligence artificielle à but lucratif du géant américain aurait en effet été entraînée à l'aide de milliards de lignes de code accessibles à tout un chacun et hébergées sur la plateforme collaborative.

Une action de groupe copilotée contre Copilot

Pour rappel, Microsoft avait racheté Github en 2018. En juin dernier, la firme de Redmond a lancé Github Copilot, une extension de Visual Studio utilisant des algorithmes de prédiction pour compléter automatiquement des lignes de code. L'IA utilisée par Copilot se baserait sur Codex, créée et entraînée par OpenAI.

Pour profiter des services de Copilot, Microsoft propose une licence aux développeurs à partir de 10 dollars par mois, ou via un abonnement de 100 dollars à l'année. Or, l'IA a été entraînée via des lignes de code open-source sur Github, dont les contributeurs ne retirent aucun profit.

Matthew Butterick, programmeur et avocat, a ainsi mis en place un site appelé Github Copilot Investigation, cité en source ci-dessous. Ceci est une première étape visant à rassembler d'autres contributeurs bénévoles sur Github en vue de monter une action de groupe à l'encontre de Copilot.

Butterick se montre particulièrement véhément envers l'outil de Microsoft, en écrivant sur le site « Comme Néo branché à la Matrice ou une vache dans une ferme, Copilot veut nous convertir en rien de plus que des producteurs d'une ressource à extraire. Et encore, les vaches ont au moins de la nourriture et un abri en retour. Il semblerait ici que Microsoft profite du travail des autres en méprisant les conditions des licences open-source et autres prérequis légaux ».

L'éthique et l'IA ne font pas bon ménage

Quand bien même un code open-source peut être utilisable librement par toutes et tous, la bonne pratique veut que la source originale soit créditée. Chose que Copilot est dans l'incapacité de faire en compilant des milliards de lignes de code piochées ici et là, souvent même mot pour mot, malgré l'assurance du contraire par Github.

Pour sa défense, Microsoft indique que le code utilisé par Copilot tombe sous le cadre légal américain relatif aux droits d'auteur du « fair use » transformatif. Mais, comme le précise Butterick sur son site, une telle législation n'a pas encore été établie lorsqu'il s'agit de travaux réalisés par une intelligence artificielle.

...

Comme on peut le constater sur le tweet ci-dessus, Butterick semble ne pas être le seul codeur open-source à montrer son désaccord à l'encontre de Copilot. Il invite ainsi les potentiels plaignants à contacter le cabinet au sein duquel il travaille pour monter un dossier d'action de groupe en bonne et due forme.

L'intelligence artificielle ne cesse décidément de diviser, le cas récent le plus flagrant étant les œuvres d'art créées via des outils tels que DALL-E ou Midjourney. À tel point que, à défaut de pouvoir les arrêter, les communautés d'art ont décidé de bannir de telles œuvres en leur sein, pour protéger le travail des artistes de chair et d'os.

Reste à voir si l'action de groupe initiée par Butterick à l'encontre de Copilot portera ses fruits ou non.

Source : Github Copilot Investigation

Par Robin Lamorlette

Microsoft

Intelligence artificielle

Propriété intellectuelle

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

Loposo

Et bien comme dall e ou l autres qui fait des dissertations, l IA sera capable de coder elle même des soft pas des simple demande et au final ça ouvrira la porte a pas mal de monde a faire leurs petits soft etc,…

Les cols blancs commences à découvrir ça que l industrie a connue

Jamais lu qu il fallait citer absolument toutes les sources.
Bref mettre tout les codes sur une plateforme qui appartient à Microsoft , il faut voir la cgu aussi, Microsoft allait bien s en servir. Si c est gratuit que Microsoft matient le site les servers etc il y a bien une raison
Sinon on fait comme d autres on a son propre site et on met rien sur github

Et il faut contacter les cabinet d avocat ou il travai

MattS32

Non, absolument pas, et ça rend le problème d’autant plus grave.

Il y a de nombreuses licences open source différentes, et toutes ne donnent pas une liberté absolue.

Par exemple avec la GPL, il est interdit de réutiliser le code dans une application diffusée sous licence non compatible avec la GPL.

MattS32

Fondamentalement, ça n’aurait rien changé que la plateforme soit à Microsoft ou non. Dans la mesure où c’est accessible publiquement, Microsoft aurait tout a fait pu utiliser tout ce code pour l’apprentissage sans que GitHub lui appartienne.

Il existe d’ailleurs déjà d’autres IA de complétion de code entraînées avec du code public, sans que leur éditeur ne soit le propriétaire d’une plateforme SCM. Il suffit d’aller se sourcer sur n’importe quelle plateforme avec des repos publics (GitHub, GitLab, Bitbucket, SourceForge…)…

Par contre, d’autres l’ont fait en faisant un peu plus attention à la question des licences… Par exemple, sur Tabnine, ils n’ont utilisé que du code sous licence BSD-like, des licences très permissives qui autorisent l’intégration dans du logiciel propriétaire, n’obligent généralement même pas à citer l’origine du code, etc…

Than

Open source ne signifie pas qu’on peut faire ce que l’on veut.
Il y a justement tout un tas de licences avec des particularités différentes.

Que ça soit accessible ne signifie pas systématiquement qu’on puisse faire un service marchand avec, par exemple.

Fodger

Effectivement @Than trop de personnes font le raccourci entre opensource et libre de droits.

Un petit récapitulatif pour ceux que ça intéresse : Appendix | Choose a License.

Sinon le github copilot ça doit être bien chiant d’avoir plein de blocs de code proposés dès que tu commences à pondre un proto XD…

leulapin

Par exemple avec la GPL, il est interdit de réutiliser le code dans une application diffusée sous licence non compatible avec la GPL.

Sauf que là ça ne réutilise pas le code, ça analyse son fonctionnement et ça intègre le résultat à une IA aidant à coder. C’est très différent et non prévu par la GNU GPL à ma connaissance.

MattS32

Non, clairement, ça réutilise le code.

Regarde l’exemple donné par Tim Davis, le code est quasi identique, les changements se limitent à des noms de variables (C devenu T, Ax devenu Tx) et des variables « constantes » remplacées par leurs valeurs (m, n, Ap, Ai et Ax qui sont initialisées dans le code de gauche et qui sont remplacées par leurs valeurs dans le code de droite). Même les commentaires sont repris :

On est clairement dans la réutilisation de code là.

C’est rigolo d’ailleurs parce que les renommages de certaines variables ne sont même pas fait de façon cohérente… À gauche, on a C, puis Cp, Ci, Cx pour représenter C->p, C->i et C->x. À droite on a T, puis Cp, Ci, Cx pour représenter T->p, T->i et T->x

Un humain aurait fait mieux pour maquiller la copie

Nmut

C’est là que cela devient compliqué!
En fait, on peut considérer ça comme une modification du code initial et donc ce nouveau code DOIT être GPL et diffusé, et les références citées. Le cas n’est pas directement prévu, mais c’est l’esprit.
Et à ma connaissance, toutes les licences libres comme la LGPL, GPL, MIT, Apache, BSD, … demandent de citer les « sources » (c’est le cas de le dire ) utilisées, même les plus lâches.

MattS32

En effet, il me semblait qu’en BSD ce n’était pas obligatoire, mais si.

Y a la WTFPL qui autorise à ne pas citer l’origine. Mais ça fait maigre du coup ^^

Aegis

Il faudrait voir si l’IA copie tout le temps ou si c’est un cas particulier. Il est probable qu’ils citent le pire exemple