Stable Diffusion 3 Medium : le nouveau modèle d'IA générative promet des images photoréalistes avec des GPU grand public

Par Camille Coirault.

Publié le 13 juin 2024 à 17h47

Un modèle déjà largement à l'aise avec plusieurs styles graphiques différents © Stable Diffusion France

Stable Diffusion 3 Medium est le dernier modèle d'IA de Stability AI. Ce dernier est capable de générer des images d'un réalisme saisissant même sans puiser dans les ressources d'un matériel très évolué.

Parmi les entreprises d'IA, Stable AI est un ténor du domaine. Son modèle d'IA, Stable Diffusion, est l'un des modèles du genre, capable de rivaliser avec les meilleurs comme Midjourney. Elle vient tout juste de lancer Stable Diffusion 3 Medium (SD3 Medium), nourri avec plus de deux milliards de paramètres. Ce dernier présente l'avantage d'exceller dans ses rendus, ce même avec des GPU grands publics, le rendant forcément très attractif pour les utilisateurs et les organisations ayant des contraintes de ressources.

Un modèle compact pour des performances époustouflantes

Depuis le 17 avril dernier, les amateurs d'intelligence artificielle créative ont pu se réjouir de l'arrivée de Stable Diffusion 3 Medium, disponible via le site officiel, via API ou par Stable Artisan proposé sur Discord. Ce qui distingue cette nouvelle itération, c'est son redoutable niveau d'efficacité. Là où sa grande sœur, la version Large, comporte un impressionnant bagage de huit milliards de paramètres, Medium se contente d'une enveloppe nettement plus modeste de deux milliards seulement.

Une réduction draconienne qui autorise ce modèle allégé à fonctionner sur des configurations matérielles bien moins puissantes, avec seulement 5 Go de VRAM GPU requis pour atteindre ses performances minimales. Cela ne l'empêche pas cependant d'afficher des performances vraiment impressionnantes.

Toutefois, Stability AI recommande tout de même 16 Go de VRAM GPU pour tirer pleinement parti des capacités du modèle. Malgré cette exigence, sa compatibilité avec une large gamme de PC fixes grand public et d'ordinateurs portables haut de gamme constitue un indéniable facteur d'attractivité.

Exemples de rendus avec leurs prompts correspondants © Stability AI

Le photoréalisme à portée de main

SD3 Medium excelle sur plusieurs points importants : le photoréalisme de ses images, le respect des prompts (qui n'est pas forcément le fort de DALL-E 3 selon son humeur ; vous pouvez d'ailleurs consulter notre guide pour améliorer vos images avec ce modèle), la qualité de ses rendus typographiques et ses capacités de personnalisation.

Grâce à l'implémentation d'un Autoencodeur Variationnel (VAE) à 16 canaux, ce modèle se révèle capable de produire des détails d'une précision inégalée par ses prédécesseurs, atteignant des niveaux de finesse supérieurs par mégapixel. Concernant le respect des prompts textuels, SD3 Medium fait preuve d'une compréhension très efficace du langage naturel, y compris l'interprétation spatiale des éléments composant une image. Cette faculté se traduit par un positionnement des éléments visuels demandés par l'utilisateur avec une très grande précision.

Toutefois, c'est assurément son efficacité en termes de gestion des ressources qui constitue la caractéristique la plus marquante de SD3 Medium. Il fait preuve d'un ratio ressources computationnelles/performances assez remarquable. Bref, la concurrence a de quoi trembler !

Stable Diffusion

Possibilité d'installer le modèle sur son PC
Accès en ligne via des plateformes
Code open source libre d'accès

9 / 10

Télécharger

Source : VentureBeat

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (4)

jvachez

Malheureusement c’est très loin des promesses. Les résultats sont catastrophiques, des mains qui se transforment en pieds, des mains à 6 doigts ou plus…

https://www.reddit.com/r/StableDiffusion/

arsworld

@jvachez C’est vrai que ça à l’air d’être encore bien freestyle coté malformation…
Après faut reconnaître que Stable a toujours eu besoin de prompt négatif bien velu pour sortir des rendus non freak

sebstein

atteignant des niveaux de finesse supérieurs par mégapixel

un ratio ressources computationnelles/performances

Gné ?!

Squeak

Il y a aussi un bond en arrière concernant la licence, elle est maintenant gratuite pour une utilisation non commerciale alors que jusqu’à présent la licence était permissive et disait à peu près qu’il n’était pas autorisé de générer des images immorales ou autres.