Stable Diffusion est le modèle de génération d'images par apprentissage automatique proposé par l'entreprise Stable AI. Cette dernière vient d'annoncer la sortie de SDXL 0.9, la dernière version du logiciel.
Cette nouvelle version améliore nettement la qualité des images générées ainsi que leur composition. Le système de génération fonctionne à partir de prompts textuels, à la manière de DALL E 2. La version bêta diffusée en avril, Stable Diffusion XL, connaît déjà un succès très satisfaisant. SDXL 0.9 promet une amélioration massive du détail des résultats graphiques et une constitution globale optimisée par rapport à la version précédente.
Des innovations majeures dans la génération d'images
Alors que l'entreprise Midjourney propose un style artistique très distinctif, presque orienté vers le cartoon, SDXL 0.9 offre une génération d'images tendant un peu plus vers le réalisme, voire le photoréalisme. Ce parti pris lui permet de se démarquer plus facilement de ses concurrents et de présenter une variété de résultats plus ample.
Cette nouvelle version offre de nombreuses possibilités créatives : utilisation dans le cinéma ou la télévision, les clips musicaux, le design ou les vidéos pédagogiques. SDXL 0.9 dispose également de fonctionnalités avancées : création à partir d'une image existante en conservant l'harmonie (outpainting); génération de nouvelles images à partir d'images existantes (image-to-image prompting) ou reconstruction de parties d'images manquantes (inpainting). Ces fonctionnalités s'avèrent extrêmement intéressantes pour les créateurs graphiques, et permettent un gain de temps considérable sur de nombreux aspects de leur travail. Cependant, vous connaissez la rengaine : SDXL 0.9 ne remplace toujours pas la main de l'homme et sa sensibilité esthétique. Il est par contre un assistant créatif très efficace.
Les améliorations techniques de SDXL 0.9
Ce qui différencie la version bêta de la 0.9 est l'augmentation plus que significative de la quantité de paramètres d'entraînement sur lequel le modèle se repose. Celui-ci repose déjà sur un socle solide de 3,5 milliards de paramètres ; il faut rajouter à cela un pipeline d'ensembles de modèles composés de 6,6 milliards de paramètres différents. Du jamais vu !
Cela fait de SDXL 0.9 l'un des modèles en open source les plus complexes et riches jamais développés jusqu'à maintenant. Sa puissance de traitement s'appuie sur un des plus grands modèles d'OpenCLIP qui ait été entraîné aujourd'hui. Son gros avantage est qu'il peut être utilisé facilement sur un GPU grand public moderne : une NVIDIA de la série des 2XXX d'au moins 8 Go de VRAM (ou équivalent) lui suffira, ainsi que seulement 16 Go de RAM. Il tourne sans problème sur Windows 10, 11 ou même sur Linux. Dans ce dernier cas de figure, il faudra en revanche vous équiper d'un GPU d'au moins 16 Go de VRAM pour le faire fonctionner correctement.
Stability AI continue de faire grandir son bébé avec succès. Après le carton de la version bêta, celui-ci revient encore plus dopé en version 0.9. Tenez-vous prêts pour la sortie de la 1.0, qui arrive en juillet !