Stable Diffusion 3 Medium est le dernier modèle d'IA de Stability AI. Ce dernier est capable de générer des images d'un réalisme saisissant même sans puiser dans les ressources d'un matériel très évolué.
Parmi les entreprises d'IA, Stable AI est un ténor du domaine. Son modèle d'IA, Stable Diffusion, est l'un des modèles du genre, capable de rivaliser avec les meilleurs comme Midjourney. Elle vient tout juste de lancer Stable Diffusion 3 Medium (SD3 Medium), nourri avec plus de deux milliards de paramètres. Ce dernier présente l'avantage d'exceller dans ses rendus, ce même avec des GPU grands publics, le rendant forcément très attractif pour les utilisateurs et les organisations ayant des contraintes de ressources.
Un modèle compact pour des performances époustouflantes
Depuis le 17 avril dernier, les amateurs d'intelligence artificielle créative ont pu se réjouir de l'arrivée de Stable Diffusion 3 Medium, disponible via le site officiel, via API ou par Stable Artisan proposé sur Discord. Ce qui distingue cette nouvelle itération, c'est son redoutable niveau d'efficacité. Là où sa grande sœur, la version Large, comporte un impressionnant bagage de huit milliards de paramètres, Medium se contente d'une enveloppe nettement plus modeste de deux milliards seulement.
Une réduction draconienne qui autorise ce modèle allégé à fonctionner sur des configurations matérielles bien moins puissantes, avec seulement 5 Go de VRAM GPU requis pour atteindre ses performances minimales. Cela ne l'empêche pas cependant d'afficher des performances vraiment impressionnantes.
Toutefois, Stability AI recommande tout de même 16 Go de VRAM GPU pour tirer pleinement parti des capacités du modèle. Malgré cette exigence, sa compatibilité avec une large gamme de PC fixes grand public et d'ordinateurs portables haut de gamme constitue un indéniable facteur d'attractivité.
Le photoréalisme à portée de main
SD3 Medium excelle sur plusieurs points importants : le photoréalisme de ses images, le respect des prompts (qui n'est pas forcément le fort de DALL-E 3 selon son humeur ; vous pouvez d'ailleurs consulter notre guide pour améliorer vos images avec ce modèle), la qualité de ses rendus typographiques et ses capacités de personnalisation.
Grâce à l'implémentation d'un Autoencodeur Variationnel (VAE) à 16 canaux, ce modèle se révèle capable de produire des détails d'une précision inégalée par ses prédécesseurs, atteignant des niveaux de finesse supérieurs par mégapixel. Concernant le respect des prompts textuels, SD3 Medium fait preuve d'une compréhension très efficace du langage naturel, y compris l'interprétation spatiale des éléments composant une image. Cette faculté se traduit par un positionnement des éléments visuels demandés par l'utilisateur avec une très grande précision.
Toutefois, c'est assurément son efficacité en termes de gestion des ressources qui constitue la caractéristique la plus marquante de SD3 Medium. Il fait preuve d'un ratio ressources computationnelles/performances assez remarquable. Bref, la concurrence a de quoi trembler !
- Possibilité d'installer le modèle sur son PC
- Accès en ligne via des plateformes
- Code open source libre d'accès
Source : VentureBeat