La future mise à jour de DALL-E a fuité, et nous en savons plus sur les capacités qu'il offrira. Les résultats sont en nette amélioration et la concurrence a peut-être du souci à se faire.
C'est officiel, la société OpenAI planche sur une version améliorée de son modèle d'IA spécialisé dans la génération d'images, DALL-E. Les images que l'on peut apercevoir dans le leak indiquent des énormes progrès, qui pourraient mener le modèle à faire de l'ombre à ses concurrents comme Midjourney ou Stable Diffusion.
Des performances à la hausse
Si ce que proposait DALL-E était plutôt sympathique pour un modèle libre d'accès, beaucoup de résultats n'étaient clairement pas à la hauteur. Images absurdes ou incompréhensibles, mauvaise compréhension des prompts ou chargements impossibles des résultats.
À l'origine du leak de la future version se trouve le YouTubeur MattVidPro, qui a consacré une vidéo entière à ce sujet. Si l'on en croit ses paroles, toutes les images qu'il montre dans sa vidéo sont issues d'un serveur Discord plutôt confidentiel, puisque celui-ci serait accessible à seulement 400 personnes dans le monde.
Le résultat est sans appel puisque le modèle d'OpenAI peut désormais créer des images bien plus réalistes et complexes que ne le faisait son prédécesseur. Ci-dessous, vous pouvez admirer un exemple d'image générée par DALL-E 3. Toutefois, aucune annonce officielle de la part de l'entreprise n'a été faite pour l'instant.
L'ajout de texte à l'image et une création non censurée
Aucune IA ne pouvait jusqu'à présent rajouter du texte lisible à une image, et il se pourrait que DALL-E 3 franchisse le cap. Dans sa vidéo, MattVidPro montre par exemple une fausse jaquette du jeu GTA V plutôt convaincante. Même si les différents personnages présents dessus demeurent légèrement difformes, la police de caractère est clairement impeccable.
Autre nouveauté : DALL-E 3 fait pour l'instant fi de toute censure. Il est donc possible de créer tout type de contenus, incluant des célébrités, des scènes violentes ou pornographiques. Le vidéaste précise en revanche qu'OpenAI mettra bien évidemment en place des mesures de protection lors de la sortie officielle pour éviter que ce type de contenu soit généré.
Cette fuite laisse entrevoir des progrès plutôt impressionnants de la part d'OpenAI. Si l'entreprise reste à la pointe avec son modèle ChatGPT, ce n'est pas le cas pour son générateur d'image. Clairement, elle compte rattraper son retard avec cette nouvelle version.
- Ergonomique et intuitif
- Comprend le langage naturel
- Comprend le français
Sources : AlternativeTo, Le Big Data