Google multiplie les annonces liées à l'intelligence artificielle (IA) et débarque avec un tout nouveau générateur d'images. Point notable : il fonctionne sans aucun prompt !

Google lance plusieurs nouveaux produits basés sur l'intelligence artificielle. © JRdes / Shutterstock
Google lance plusieurs nouveaux produits basés sur l'intelligence artificielle. © JRdes / Shutterstock

Car la génération d'images est certainement l'un des domaines dans lesquels l'IA subjugue le plus d'utilisateurs, avec de nouveaux outils qui voient sans cesse le jour.

Dans cette optique, Google Labs, branche dédiée aux tests et expériences avec les dernières technologies de l'entreprise, lance Whisk. « Au lieu de générer des images à l'aide de textes longs et détaillés, Whisk vous permet de créer des prompts à l'aide d'images », explique-t-elle dans un billet de blog. Mais alors, comment ça marche exactement ?

Gemini génère les prompts

En fait, il suffit simplement de glisser des images dans l'outil pour que celui-ci se mette en marche : une pour le sujet, une seconde pour la scène, et la dernière pour le style. C'est alors le modèle Gemini qui s'active, rédigeant automatiquement en légende détaillée des images insérées. Ces légendes sont ensuite introduites dans Imagen 3, le dernier modèle de génération d'images de la firme de Mountain View.

« Ce processus permet de capturer l'essence de votre sujet, et non une réplique exacte. Ainsi, vous pouvez facilement remixer vos sujets, vos scènes et vos styles de manière originale », assure l'entreprise. Concrètement, le résultat est donc une image basée sur l'interprétation de Gemini des images intégrées dans l'outil par l'utilisateur.

Ici, on voit les trois images insérées dans Whisk pour générer celle de droite. © Google
Ici, on voit les trois images insérées dans Whisk pour générer celle de droite. © Google

Plus un outil créatif qu'un générateur, selon Google

« Étant donné que Whisk n'extrait que quelques caractéristiques clés de votre image, il peut générer des images qui diffèrent de vos attentes. Par exemple, le sujet généré peut avoir une taille, un poids, une coiffure ou un teint de peau différents », prévient Google, reconnaissant que l'outil a le potentiel de « manquer sa cible ». Heureusement, il est aussi possible de lui donner davantage d'indications de manière textuelle afin que l'image générée soit retravaillée.

Un autre exemple des créations de Whisk. © Google

La société considère davantage Whisk comme « un outil créatif » que comme un véritable générateur d'images. « Nous l'avons conçu pour une exploration visuelle rapide, et non pour des éditions au pixel près », précise-t-elle.

Si vous voulez tester la technologie, il va toutefois falloir vous armer de patience. Pour l'instant, Whisk n'est disponible qu'aux États-Unis en preview. Comme à son habitude avec l'IA, Google va attendre les retours des premiers testeurs pour améliorer sa technologie, avant d'envisager un déploiement plus large.

Source : Google