Stable Diffusion, Imagen, DALL-E 2 : l'IA génère parfois des images scrupuleusement identiques... aux images qui l'ont alimentée

06 février 2023 à 10h45
4
© OpenAI
© OpenAI

À court d'inspiration, les IA se mettent à reproduire trait pout trait les œuvres qui les ont entraînées. Ce constat, assez logique en fin de compte, émane d'un comité de chercheurs experts dans le domaine de l'IA.

Le groupe de recherche en question compte en effet des scientifiques spécialisés en intelligence artificielle issus de rien de moins que Google, DeepMind, ETHZ ainsi que des universités de Berkeley, de Californie et de Princeton. Soit clairement des personnes qui savent de quoi elles parlent.

Inspiration Anticipée

Disponible sur arXiv.org et citée en source ci-dessous, cette étude vient donc démontrer que les IA génératrices d'images populaires telles que DALL-E, Imagen, Midjourney ou Stable Diffusion arrivent parfois à court d'inspiration. À tel point qu'elles ne trouvent pas mieux à produire que ce qui a servi à les entraîner.

Pour rappel, ces outils ont en effet été nourris par leurs créateurs de milliers, voire de millions d'images avant d'être placés entre les mains du public. Depuis lors, elles ont rencontré l'essor exponentiel qu'on leur connaît, n'en déplaise à de nombreuses communautés d'art.

Le groupe de recherche a ainsi estimé que sur 1 000 images générées par ces intelligences artificielles, 100 seraient une reproduction pour ainsi dire à l'identique des images qui ont servi à les entraîner.

Un problème de droits d'auteur

En creusant plus loin, le comité de scientifiques a établi un autre revers bien connu de ces outils particulièrement plébiscités. Pour les entraîner, leurs créateurs ont en effet récupéré des échantillons un peu partout sur Internet. Or, nombre d'entre eux sont protégés par des droits d'auteur.

Plus exactement, selon le groupe de recherche, 35 % des images réutilisées affichent explicitement leur couverture par de tels droits de propriété intellectuelle. 65 % des échantillons ne l'indiquent pas noir sur blanc, mais sont en principe placés sous l'égide du régime général de la protection par les droits d'auteur.

La parade trouvée par les créateurs de tels outils est généralement d'ajouter du bruit sur les images durant la phase de traitement, donnant l'illusion (souvent très facile à déceler) que l'image ainsi produite n'est pas une copie. Le comité de scientifiques conclut son étude sur ce point en indiquant que les créateurs de ces outils doivent ajouter un système de marquage sur les images ayant servi à leur entraînement pour éviter de telles répétitions pour le moins gênantes.

Source : arXiv.org

Robin Lamorlette

Fan absolu de tech, de films/séries, d'heroic-fantasy/SF et de jeux vidéos type RPG, FPS et hack&slash qui se shoote à coups de lore sur Star Wars, The Witcher, Cyberpunk, Game of Thrones et Donjons &...

Lire d'autres articles

Fan absolu de tech, de films/séries, d'heroic-fantasy/SF et de jeux vidéos type RPG, FPS et hack&slash qui se shoote à coups de lore sur Star Wars, The Witcher, Cyberpunk, Game of Thrones et Donjons & Dragons/Baldur's Gate 3.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (4)

Maraut
Quand on connait ls autres tableaux de Vermeer, c’est très loin d’être un bordel comme celui qui est présenté !
Nmut
N’est ce pas un biais de celui qui a « demandé » le tableau. Une requête du genre « Fait moi un tableau d’une jeune fille avec une boucle d’oreille en perle dans une pièce avec plein de trucs, ambiance des années 1600 » mais avec « Fait un tableau avec une jeune fille avec une boucle d’oreille en perle à la façon Vermeer » on aurait eu le tableau intégralement…
Patrice_FERLET
Alors moi aussi je sais de quoi je parle. Et j’ai lu le papier. Ils ont recrée un modèle de diffusion en utilisant CIFAR 10 qui ne contient pas assez d’images et qui a des descriptions assez limitées. Et ils forcent aussi les prompts pour clairement récupérer image d’entraînement. Donc oui, c’est un souci en soit, mais c’est assez loin de l’utilisation normale de ce genre de modèle et ça ne représente pas la grande diversité de description que l’on trouve dans les modèles existants qui utilisent des dataset largement plus vastes. Donc, attention de ne pas tomber dans le piège du buzz malsain.
gloubhi-Boulgha
Merci pour votre recherche: ils n’ont pas utilisé les logiciels existant et ont fabriqué un ersatz mal entraîné.<br /> j’espère que les professionnels de l’art et de l’édition auront la décence de délister de leur catalogue les nombreux artistes qui sont des clones d’artistes plus connus ou dont le style est formaté et n’apporte rien de nouveau.<br /> Comme le savent les grands artistes, rien ne se crée sans s’inspirer de l 'existant.<br /> citation de https://malvese.com/ ""copier en modifiant à peine est vu d’un mauvais œil, mais créer quelque chose de plus grand à partir d’une source d’inspiration est célébré. Ils reconnaissent que toute grande création n’est possible qu’en se « hissant sur les épaules de géants » – autre citation Apocryphe souvent attribuée à Isaac Newton – et en apprenant de nos prédécesseurs. Ne pas rejeter la tradition, mais l’enrichir.<br /> Picasso et Braque par exemple ont tous deux emprunté à l’œuvre de Cézanne, à partir de laquelle ils ont exploré puis posé les bases du cubisme.
Voir tous les messages sur le forum
Haut de page

Sur le même sujet