La déferlante des intelligences artificielles génératives ne vous a sans doute pas épargné. Il suffit de saisir une phrase de commande, appelée prompt, pour obtenir un texte ou un visuel créé automatiquement. Et il n’y a guère besoin de maîtriser la programmation, le prompt doit être rédigé en langage naturel.
- Possibilité d'installer le modèle sur son PC
- Accès en ligne via des plateformes
- Code open source libre d'accès
- Droits commerciaux inclus dans tous les forfaits payants
- Pertinence dans la compréhension des prompts
- Tarifs accessibles
Parmi les générateurs d’images, Midjourney et DALL-E se disputent le leadership. Mais l'on connaît peut-être moins les challengers tels que Stable Diffusion Online. Nous vous proposons ici un dossier comparatif entre ce dernier et Midjourney, pour savoir enfin lequel des deux est le meilleur et ce que vaut réellement l’outsider.
Midjourney, en bref
Midjourney se positionne comme leader de la génération d’images avec une intelligence artificielle. Sa version bêta a été lancée en juillet 2022. Il n’existe pas d’interface propre à cet outil, il doit être utilisé sur un serveur Discord. Cela signifie qu’il est obligatoire d’avoir un compte Discord, en plus d'un compte Midjourney.
Pour concevoir un visuel avec Midjourney, il faut créer une invite (un « prompt ») qui commence par la commande /imagine. Ensuite, le sujet et son environnement doivent être décrits, sous forme de phrases ou, préférentiellement, de mots-clés. C’est également dans le prompt que les informations doivent être données sur le style de l’image, son éclairage, son inspiration…
Midjourney crée 4 images pour un même prompt. Si l’une d’entre elles convient, il suffit de la sélectionner et d’en demander un « upscale » en format supérieur, directement dans la fenêtre Discord. Si le résultat n’est pas bon, il est possible de lancer une nouvelle génération à partir du même prompt, en un simple clic.
Stable Diffusion, en bref
Stable Diffusion est un modèle de machine learning créé par l’université de Munich, en collaboration avec les sociétés Runway et Stability AI. La première version est sortie en août 2022, dans le sillage de DALL-E et de Midjourney. Contrairement à cette dernière, Stable Diffusion est open source et gratuit.
Pour utiliser son module « Playground », il suffit de visiter le site officiel et de rédiger un prompt directement dans le champ de saisie. Ici, pas de compte à créer, pas d’installation, pas d’apprentissage poussé, hormis les quelques règles de formulation des prompts. Et même pour ça, si vous êtes en panne d’inspiration, rendez-vous dans la base de prompts, dans laquelle vous pouvez chercher des idées à partir de mots-clés. Les prompts sont semblables à ceux de Midjourney, mais ici, tout se trouve dans le corps du prompt, en langage naturel, alors que Midjourney peut faire appel à des paramètres supplémentaires en fin de prompt.
Stable Diffusion crée également 4 images pour un même prompt. Il est possible de relancer la génération à partir du même prompt. L’image qui convient le mieux peut être agrandie, tout simplement en cliquant dessus.
Midjourney et Stable Diffusion, le match
Le prix : avantage Stable Diffusion
En ce qui concerne les tarifs, c’est Stable Diffusion Online qui remporte la manche haut la main, puisqu’il est gratuit (mais avec des encarts de publicité). Jusqu’à fin mars 2023, il était possible d’essayer gratuitement Midjourney avec une offre « Free trial » de 0,4 heure, soit environ 25 images. Midjourney impose désormais un abonnement payant à partir de 8 dollars (HT) par mois avec paiement annuel ou de 10 dollars (HT) par mois avec paiement mensuel. Pendant le mois, si le nombre de crédits est insuffisant, il est proposé d’en racheter au coup par coup, sans changer d’offre. Il est obligatoire d’avoir un abonnement en cours pour acquérir des crédits supplémentaires.
L’ergonomie : avantage Stable Diffusion
Utiliser Midjourney n’est pas complexe, mais demande d’avoir un compte Midjourney, d’avoir un compte Discord et de savoir s’en servir, de connaître le fonctionnement des prompts… Avec Stable Diffusion, pas de complications. Même s’il est préférable de connaître également le fonctionnement des prompts, il suffit de les saisir dans le champ prévu à cet effet, directement sur le site internet. Vous pouvez éventuellement renseigner aussi un prompt négatif, c’est-à-dire un ou plusieurs éléments dont vous ne voulez pas sur l’image, avant de valider avec le bouton « Generate ».
Pour les deux outils, les prompts doivent être saisis avec une grande précision, en anglais et en décrivant tout ce qui doit apparaître sur l’image. Pour Stable Diffusion… c’est tout. Pour Midjourney, on peut ajouter à cela l’utilisation des paramètres en fin de prompt, ce qui n’est pas indispensable, mais peut faire gagner en qualité.
La qualité du rendu : avantage Midjourney
La résolution
Dans Midjourney, il est possible de choisir, grâce aux paramètres en fin de prompt, le ratio de l’image : portrait, paysage, 16:9… Avec Stable Diffusion Online, on a droit à un seul format : carré.
© Pascale Duc pour Clubic
Quant à la résolution, les visuels générés par Midjourney sont par défaut en 1 024 x 1 024 pixels (après l’« upscale » qui permet de les agrandir). Pour la meilleure résolution, il convient d’ouvrir l’image rendue dans un navigateur. Stable Diffusion Online propose des images agrandies de 768 x 768 pixels. Ici, c’est Midjourney qui obtient le point.
Le réalisme
Avec la dernière version 5.1 de Midjourney, le réalisme des photos est remarquable, à condition de savoir utiliser les bonnes instructions dans le prompt. On lui reproche parfois des rendus « trop » réalistes, qui manquent de spontanéité. Mais ce problème peut être pallié lorsque l’on manie correctement les prompts, ce qui demande, il est vrai, un peu d’apprentissage et d’entraînement.
Toujours est-il que globalement, l’apparence est plus naturelle dans Midjourney que dans Stable Diffusion Online. Même lorsque le prompt est détaillé et le sujet simple, le réalisme n’est pas toujours au rendez-vous.
a shaved hair lady with black glasses, a little chubby, working on her laptop, realistic photo, award-winning photo, artificial light, highly detailed
© Pascale Duc pour Clubic
La qualité du rendu, cas pratique : 5 prompts à l’essai
a brown wooden chair in a garden full of flowers, realistic photo, sunlight
© Pascale Duc pour Clubic
a blond woman with blue eyes, sitting next to a window
© Pascale Duc pour Clubic
a bouquet of red tulips in a transparent vase, oil painting
© Pascale Duc pour Clubic
a coloring book page of a black and white turtle, cartoon style, bold lines
© Pascale Duc pour Clubic
a tree next to a huge rock, japanese ink art
© Pascale Duc pour Clubic
Les fonctionnalités avancées : avantage Midjourney
Nous l’avons vu, la rédaction des prompts est sensiblement la même sur Midjourney et sur Stable Diffusion. Mais qu’en est-il des fonctionnalités avancées ? Sur Stable Diffusion, c’est très rapide : 1 curseur « Guidance Scale » détermine le degré de liberté laissé à l’intelligence artificielle pour interpréter le prompt. Plus ce degré est élevé, plus l’image est censée être fidèle au prompt. Mais cet étalonnage n’est pas toujours réellement respecté…
© Pascale Duc pour Clubic
Sur Midjourney, on passe à un autre niveau. D’abord avec les paramètres, précédés d’un double tiret, à ajouter en fin de prompt. Ils permettent de régler la qualité, le ratio, le mode « chaos » qui laisse plus ou moins carte blanche à Midjourney en matière de créativité, la version du robot, etc.
On note également la possibilité dans Midjourney d’uploader ses propres photos, pour les fusionner entre elles ou les mélanger avec un prompt. Vous pouvez aussi, avec quelques manipulations, employer des éléments constants dans plusieurs images, comme un personnage principal dans plusieurs situations. Et pour donner plus de poids à certaines parties du prompt, les multiprompts sont là ! Il existe d’autres fonctionnalités plus anecdotiques, telles que l’utilisation des émojis dans les prompts.
Midjourney vs Stable diffusion, le verdict
Vous l’avez compris, si Stable Diffusion est plus simple à prendre en main, c’est Midjourney qui est en haut du podium quant à la qualité des images générées. Mais comme Stable Diffusion est une solution open source, il en existe plusieurs interfaces graphiques développées par des utilisateurs, ainsi que des modèles plus élaborés, à partir du même code. Puisque Stable Diffusion Online est gratuit, il peut être pratique pour s’entraîner à composer des prompts efficaces avant de les employer dans Midjourney. Avec un peu de chance, le résultat peut déjà être au rendez-vous dans Stable Diffusion, qui donne parfois des images très honorables avec certains prompts qui ne requièrent pas un réalisme important !
- Possibilité d'installer le modèle sur son PC
- Accès en ligne via des plateformes
- Code open source libre d'accès
- Droits commerciaux inclus dans tous les forfaits payants
- Pertinence dans la compréhension des prompts
- Tarifs accessibles