« Un jeune homme fatigué tape sur son clavier » permettra sans doute dans quelques années de générer une image très méta de votre serviteur en train d’écrire cet article. Grâce à Imagen, Google franchit une nouvelle étape dans le monde de l’intelligence artificielle et du machine learning.
En bêta fermée au sein du Google Research Lab, ce nouvel algorithme surpuissant serait, d’après les dires de ses créateurs et créatrices, plus performant encore que l’impressionnant DALL-E 2 de la firme OpenAI.
Tout est possible, tout est réalisable
Sur son site, qui sert également de note d’intention à l’outil, Imagen est décrit comme un « modèle de diffusion texte-image doté d’un degré de photoréalisme et de compréhension du langage sans précédent ». En d’autres termes, il serait capable de faire strictement tout ce que vous voulez.
Un génie de la lampe, en quelque sorte, enclin à générer le plus précisément possible une image à partir des mots renseignés par l’utilisateur. Plusieurs exemples à notre disposition permettent d’admirer les résultats. « Un cobra géant dans une ferme, mais le cobra est constitué de maïs », « un cerveau chevauchant une fusée en direction de la lune », ou encore « un oiseau très énervé » sont uniquement quelques exemples extraits d’un site qui en contient des dizaines.
Pour arriver à un tel résultat, le laboratoire utilise la méthode dite de la diffusion. Tout part d’une image en faible résolution, assez chaotique, affinée au fur et à mesure que l’IA pioche dans son modèle de données à partir des mots proposés. À partir d’un premier canevas de 64 x 64 pixels, Imagen l’upscale pour obtenir une image en 1 024 x 1 024 pixels. Pendant le processus, des détails sont ajoutés en les harmonisant avec le matériau d’origine.
Pour le dire autrement, Imagen fonctionne comme le ferait un artiste peintre. D’abord en croquant des formes assez sommaires, puis en ajoutant à chaque passe des détails et de la couleur en fonction du modèle de données mobilisé. Et d’après un panel d’observateurs engagés par Google, les résultats issus d’Imagen sont plus précis que ceux issus de DALL-E 2.
Google conscient des limites et des risques posés par son outil
Impressionnant, Imagen est évidemment imparfait. Les résultats présentés ont été obtenus dans des conditions de laboratoire très contrôlées. Mais en dehors même de ces précautions, le site de la Research Team est riche en réflexions sur les potentielles dérives d’un tel outil à disposition du plus grand nombre.
Dans un chapitre intitulé « limites et impact sociétal », les chercheurs ne cachent pas leur inquiétude de voir leur technologie détournée à des fins douteuses. C’est aussi pourquoi « pour le moment, écrivent les concepteurs, nous avons décidé de ne pas ouvrir le code ou proposer de démo publique. »
De plus, il est dit qu’Imogen mobilise des sets de données dans lesquels aucune curation n’a été faite. Un choix qui lui a permis de progresser plus rapidement, mais qui laisse la porte ouverte à des interprétations racistes, sexistes, ou basées sur du contenu pornographique.
Une belle occasion de rappeler qu’une intelligence artificielle, et la technologie en général d’ailleurs, n’est jamais neutre. Elle est le fruit des croyances et des opinions de celles et ceux qui la conçoivent, et la chose n’est que plus criante lorsqu’on parle d’IA. Un domaine de recherche que l’on sait particulièrement embourbé dans des biais racistes.
Une IA bat 8 champions du monde au bridge, pourquoi est-ce si important ?
Source : Google Research Lab