DALL-E 3 : ce que vous pouvez faire et ne pas faire avec le générateur d'images

DALL-E 3 est la troisième itération de l'IA génératrice d'images d'OpenAI, le créateur de ChatGPT. Celle-ci est dédiée à la génération d'images, contrairement à GPT qui est orienté sur les sorties textuelles. Comme chaque IA sorties cette dernière année, elle ouvre un monde de possibilités, mais pas sans certaines limites…

Midjourney pouvait générer des images photoréalistes, mais DALL-E 2 était en retard dans ce domaine, produisant des images artificielles facilement identifiables. Pour la sortie de la troisième version de DALL-E, un article de recherche explique son fonctionnement. Nous avons examiné cet article afin de déterminer les limitations et les domaines d'expertise de cette IA.

Les limitations de DALL-E 3

DALL-E 3 représente une avancée importante dans la génération d'images, permettant de produire des images conformes aux textes générés. Jusque-là, les générateurs d'images rencontraient des difficultés à produire des textes correspondants aux demandes. En conséquence, si l'on demandait l'inscription de "Salut" sur un piédestal antique, l'écriture obtenue différera du texte requis. Toutefois, ce problème est maintenant résolu grâce à DALL-E 3.

Génération de schémas scientifiques

La nouvelle génération de textes pour les images pourrait vous inspirer. Par exemple, elle serait bien adaptée à la création de schémas scientifiques. Néanmoins, OpenAI souligne que l'intelligence artificielle peut donner des résultats imprécis. Toutefois, si vous fournissez toutes les informations nécessaires, la création de schémas devrait, en principe, fonctionner avec précision. De plus, vous n'êtes pas obligé de fournir toutes les informations, car ChatGPT complétera automatiquement votre message avant de l'envoyer à DALL-E 3.

Prompt : Photo réaliste d'un schéma de base de données sur un fond blanc. Sur la gauche, une table rectangulaire intitulée 'Users' avec les colonnes suivantes : 'UserID' (clé primaire), 'Username', 'Password', 'Email', et 'DateRegistered'. Des lignes horizontales séparent chaque colonne pour illustrer les enregistrements. Sur la droite, une table rectangulaire intitulée 'Products' avec les colonnes : 'ProductID' (clé primaire), 'ProductName', 'Price', et 'StockQuantity'. Des lignes horizontales séparent également chaque colonne. Entre les deux tables, des flèches illustrant une relation entre 'UserID' de la table 'Users' et 'ProductID' de la table 'Products', indiquant une potentielle relation d'achat.
Prompt : Photo réaliste d'un schéma de base de données sur un fond blanc. Sur la gauche, une table rectangulaire intitulée 'Users' avec les colonnes suivantes : 'UserID' (clé primaire), 'Username', 'Password', 'Email', et 'DateRegistered'. Des lignes horizontales séparent chaque colonne pour illustrer les enregistrements. Sur la droite, une table rectangulaire intitulée 'Products' avec les colonnes : 'ProductID' (clé primaire), 'ProductName', 'Price', et 'StockQuantity'. Des lignes horizontales séparent également chaque colonne. Entre les deux tables, des flèches illustrant une relation entre 'UserID' de la table 'Users' et 'ProductID' de la table 'Products', indiquant une potentielle relation d'achat.

Dans les faits, la réalisation de schéma ne fonctionnera pas tout à fait bien. L'exemple ci-dessus est assez spécifique, bien que normalement simpliste. Deux rectangles auraient dû être dessinés, reliés par un lien, et dans chaque table, des données membres devraient être inscrites. Là, DALL-E 3 n'a clairement pas fait ça, et le résultat n'est pas très probant.

Documents artificiels : c'est un refus catégorique !

Un point important que le système est capable de faire, c'est la génération de documents artificiels. Cela découle toujours de la génération textuelle, mais la différence ici, c'est que le générateur est très bon pour cette génération de documents. À la différence des images scientifiques qui étaient inexactes, les documents générés peuvent berner les gens. Le modèle utilisé est donc capable de le faire. Toutefois, pour des raisons éthiques et morales, OpenAI a décidé d'interdire cette possibilité.

Inspiration de styles artistiques, la protection de la propriété intellectuelle

DALL-E 3 utilise probablement diverses créations d'artistes dans ses données sources pour être correctement entraîné. De ce fait, il peut reproduire des images dans le style d'un artiste spécifique. Néanmoins, cela peut causer des problèmes de propriété intellectuelle, concernant les images générées comme celles utilisées pour l'entraînement. Cependant, afin d'éviter d'éventuelles poursuites judiciaires, DALL-E 3 restreint la création d'images à partir du style d'artistes, en particulier ceux encore vivants, sauf pour une poignée d'exceptions. Ces dernières incluent des artistes renommés à l'échelle mondiale, telle que Picasso.

Prompt : Oil painting with geometric shapes, cubist era influences, and bright primary colors showcasing a cat with abstract features.

Les nouvelles capacités de DALL-E 3

Images photoréalistes, la propagation des fake news arrive ?

Les images produites par DALL-E 3 deviennent de plus en plus réalistes, rendant difficile la distinction avec des photos réelles. Il est difficile, voire impossible, de reconnaître une image créée par une intelligence artificielle d'un simple regard. Si l'on reprend un sujet qui a agité la France il y a quelques mois, on peut s'amuser à créer de belles photos fakes. Prenons donc le sujet de la réforme des retraites, en demandant simplement une photo d'illustration générique. Les esprits les plus futés (ou pervers), réfléchiront aux possibilités de créer de fausses images, d'un manifestant qui casse des œuvres d'art, de bavures policières ou beaucoup d'autres fausses informations.

Prompt : Photo réaliste d'une grande manifestation dans les rues modernes de Paris avec des milliers de personnes. Les bâtiments contemporains et des structures modernes comme des gratte-ciels sont visibles en arrière-plan. La foule est colorée, avec des personnes portant des drapeaux de syndicats. L'ambiance est dynamique et vibrante, avec des personnes de divers âges, genres et origines. Des bannières, pancartes et drapeaux ajoutent des touches de couleur vive à la scène.

Caricatures et cartoons

Un des styles graphiques de la génération par DALL-E 3 qui est le plus sorti sur Twitter, c'est le cartoon. Ce style est très bien généré et reproduit par l'intelligence artificielle, avec des résultats très bluffants. Quelques fois, les textes ne sont pas tout à fait opérationnels, mais dans la majorité des cas, les résultats sont très bons. Ainsi, avec un thème général, vous pouvez lui demander des exemples de caricature autour d'un sujet. DALL-E 3 (via ChatGPT) lancera la génération de différentes images issues de différents prompts, de quoi diversifier les réponses.

Prompt : Caricature d'une ville submergée par la montée des eaux, avec des poissons nageant entre les bâtiments et des personnes utilisant des canoës au lieu de voitures. Texte : 'Nouvelle mode de transport en ville!'

DALL-E 3 est donc un outil très intéressant, qui viendra s'installer dans les habitudes de nombreux utilisateurs. Que ce soit pour illustrer une présentation PowerPoint, pour créer un meme pour un pote, ou pour des articles, le générateur d'image est très fort. Le plus intéressant désormais, c'est de savoir ce que OpenAI prépare pour créer un DALL-E 4 qui sera encore meilleur. Affaire à suivre …

  • Ergonomique et intuitif
  • Comprend le langage naturel
  • Comprend le français
10 / 10