L'IA de Google peut maintenant créer une image à partir d'un texte

Par Pierre Crochart, Spécialiste smartphone.

Publié le 25 mai 2022 à 08h10

« Un jeune homme fatigué tape sur son clavier » permettra sans doute dans quelques années de générer une image très méta de votre serviteur en train d’écrire cet article. Grâce à Imagen, Google franchit une nouvelle étape dans le monde de l’intelligence artificielle et du machine learning.

En bêta fermée au sein du Google Research Lab, ce nouvel algorithme surpuissant serait, d’après les dires de ses créateurs et créatrices, plus performant encore que l’impressionnant DALL-E 2 de la firme OpenAI.

Tout est possible, tout est réalisable

Sur son site, qui sert également de note d’intention à l’outil, Imagen est décrit comme un « modèle de diffusion texte-image doté d’un degré de photoréalisme et de compréhension du langage sans précédent ». En d’autres termes, il serait capable de faire strictement tout ce que vous voulez.

Un génie de la lampe, en quelque sorte, enclin à générer le plus précisément possible une image à partir des mots renseignés par l’utilisateur. Plusieurs exemples à notre disposition permettent d’admirer les résultats. « Un cobra géant dans une ferme, mais le cobra est constitué de maïs », « un cerveau chevauchant une fusée en direction de la lune », ou encore « un oiseau très énervé » sont uniquement quelques exemples extraits d’un site qui en contient des dizaines.

Quelques exemples d'images générées par Imagen © Google Research Lab

Pour arriver à un tel résultat, le laboratoire utilise la méthode dite de la diffusion. Tout part d’une image en faible résolution, assez chaotique, affinée au fur et à mesure que l’IA pioche dans son modèle de données à partir des mots proposés. À partir d’un premier canevas de 64 x 64 pixels, Imagen l’upscale pour obtenir une image en 1 024 x 1 024 pixels. Pendant le processus, des détails sont ajoutés en les harmonisant avec le matériau d’origine.

Pour le dire autrement, Imagen fonctionne comme le ferait un artiste peintre. D’abord en croquant des formes assez sommaires, puis en ajoutant à chaque passe des détails et de la couleur en fonction du modèle de données mobilisé. Et d’après un panel d’observateurs engagés par Google, les résultats issus d’Imagen sont plus précis que ceux issus de DALL-E 2.

Comparaison directe de la requête « une pomme noire et un sac à dos vert » dans Imagen et DALL-E 2. © Google Research Lab

Google conscient des limites et des risques posés par son outil

Impressionnant, Imagen est évidemment imparfait. Les résultats présentés ont été obtenus dans des conditions de laboratoire très contrôlées. Mais en dehors même de ces précautions, le site de la Research Team est riche en réflexions sur les potentielles dérives d’un tel outil à disposition du plus grand nombre.

Dans un chapitre intitulé « limites et impact sociétal », les chercheurs ne cachent pas leur inquiétude de voir leur technologie détournée à des fins douteuses. C’est aussi pourquoi « pour le moment, écrivent les concepteurs, nous avons décidé de ne pas ouvrir le code ou proposer de démo publique. »

De plus, il est dit qu’Imogen mobilise des sets de données dans lesquels aucune curation n’a été faite. Un choix qui lui a permis de progresser plus rapidement, mais qui laisse la porte ouverte à des interprétations racistes, sexistes, ou basées sur du contenu pornographique.

Une belle occasion de rappeler qu’une intelligence artificielle, et la technologie en général d’ailleurs, n’est jamais neutre. Elle est le fruit des croyances et des opinions de celles et ceux qui la conçoivent, et la chose n’est que plus criante lorsqu’on parle d’IA. Un domaine de recherche que l’on sait particulièrement embourbé dans des biais racistes.

Sur le même sujet :
Une IA bat 8 champions du monde au bridge, pourquoi est-ce si important ?

Source : Google Research Lab

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (3)

gamez

mais les dérives on peut en faire à partir de tout et n’importe quoi. si on ne fait pas découvrir l’outil aux gens à cause de ça, on n’avancera jamais et on ne fera plus jamais rien de nouveau

ChezDebarras

n’oubliez pas de choisir la langue du texte !
Parce que sinon, quand vous utilserez ce service de google pour montrer à vos enfants ce qu’est de « mordre », vous risqueriez des surprises en tapant le texte « bite »

Than

On peut dériver à partir de tout. Faut-il tout interdire ?

Combien de millénaires encore avant de comprendre ça ?

Quand on nous vend une petite cuillère, c’est fait pour manger. Pourtant, on peut pocher des yeux avec… Faut-il interdire les petites cuillères, ces objets trop dangereux pour l’Humanité ?