Want to create interactive content? It’s easy in Genially!
Tutoriel : Stable Diffusion
Renwart William
Created on March 28, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Réalisé par William Renwart
Stable Diffusion
Tutoriel :
La particularité de Stable Diffusion est qu'il est gratuit et n'envoie aucune donnée sur internet, c'est-à-dire que toutes les images générées ne sont enregistrées que localement sur l'ordinateur depuis lequel il est utilisé. A noter que l'on peut générer autant d'images que l'on veut, sans aucune restriction.
Stable Diffusion est un modèle d'intelligence artificielle permettant de créer des images à partir de texte ou d'autres images, comme le font Midjourney, Copilot (Bing) et bien d'autres.
C'est quoi Stable Diffusion ?
Les images générées étant disponibles directement sur l'ordinateur, vous pourrez les reprendre sur votre clé USB ou à la fin de la séance.
Si besoin, vous pouvez réserver la formation "Génération d'images IA" pour qu'un membre du personnel vous aide à utiliser Stable Diffusion.
Vous pouvez tester/utiliser Stable Diffusion en réservant le PC Gaming du Labo sur le site HECTOR (lien) :
Où puis-je l'utiliser ?
Ouvrir Stable Diffusion
Etape 3
Etape 1
Etape 2
Comment l'utiliser ?
Stable Diffusion apparait sur le navigateur internet
Cliquer sur l'icône "Stable Diffusion"du bureau
Une fenêtre de commande apparait (attendre et ne pas y toucher)
Il existe néanmoins plusieurs paramètres configurables dans Stable Diffusion. Il est possible, par exemple, de modifier la qualité, la taille et la méthode générative de l'image. Tout ceci est expliqué dans les slides suivantes.
Pour générer une image, il suffit de choisir un modèle enregistré dans l'ordinateur, de taper la description de l'image que l'on veut générer, ensuite de cliquer sur le bouton "generate" et hop, on a notre image générée.
Comment l'utiliser ?
Comment l'utiliser ?
L'emplacement des images générées se trouve dans le dossier "txt2images" sur le bureau. Dans ce dossier, il faut sélectionner le dossier nommé à la date du jour, et vous trouverez vos images à cet endroit.
Comment l'utiliser ?
Une petite démo ?
Voici quelques exemples d'images générées avec Stable Diffusion
Ça donne quoi ?
https://www.stable-diffusion-france.fr
https://www.stable-diffusion-art.com
https://www.stablediffusion.blog
Il existe d'autres paramètres de Stable Diffusion mais ceux-ci sont plus complexes et plus longs à expliquer. Si vous êtes intéressés, voici quelques liens pour comprendre et utiliser Stable Diffusion plus en profondeur.
Autres informations
grey cat, square glasses
grey cat, glasses
grey cat
Seed : 149895157
La seed est un nombre qui est généré au moment de l'initialisation de la génération. Elle sert d'identité de l'image, en plus du prompt. Ce nombre est aléatoire par défaut, c'est pour ça qu'à chaque fois que l'on génère un même prompt, l'image, elle, est différente à chaque fois. Au contraire, si nous gardons la seed générée la première fois ou si nous tapons manuellement une seed et que l'on génère plusieurs images, elles seront toutes identiques. La seed peut varier de 1 à des milliards de nombre (si pas plus...). Il est intéressant d'utiliser une même seed en changeant différents paramètres ou même en ajoutant ou supprimant certains mots dans le prompt, cela permet de comparer l'image d'origine avec la nouvelle image. De ce fait, la nouvelle image devrait ressembler plus ou moins à l'image générée précédemment, mais avec les modifications ajoutées. A noter que cela fonctionne mieux en changeant quelques détails, plutôt que de changer le sujet en question.
Seed
Ici, nous pouvons régler la résolution de l'image. Les modèles basiques sont entrainés avec des images en 512 pixels sur 512 pixels, il est donc conseillé de n'utiliser que cette résolution en format carré. Pour le format paysage, on peut utiliser la résolution 768 pixels sur 512 pixels, et pour le format portrait, 512 pixels sur 768 pixels (l'inverse du format paysage). Il existe également des modèles entrainés sur base de 1024 pixels par 1024 pixels, ils sont catégorisés par l'intituler "XL" dans leur nom. Il est donc aussi conseillé de n'utiliser que cette résolution en format carré. Pour le format paysage, on peut utiliser la résolution 1344 pixels sur 768 pixels, et pour le format portrait, 768 pixels sur 1344 pixels (l'inverse du format paysage).
Résolution
Fantaisie
Réaliste
Manga
Stable Diffusion se base sur des modèles d'intelligences artificielles pour générer des images. Il existe des modèles de bases qui permettent de générer presque ce que l'on veut, mais il existe également des modèles qui ont été entrainés afin de générer des choses plus spécifiques. Par exemple, un modèle peut avoir été entrainé pour réaliser des personnes très réalistes, un autre pour réaliser des paysages fantaisistes et un autre pour réaliser des personnages de manga.
Modèles
footsteps in snow, winter forest, mist, sunny weather
portrait of woman with glasses, Van Gogh's painting style
Je veux générer une peinture d'une femme avec des lunettes, dans le style de Van Gogh
Le prompt est l'endroit où l'on décrit l'image que l'on veut générer. Il est préférable d'écrire les phrases en anglais et d'utiliser des mots-clés pour donner un maximum de détails. Par exemple, si on veut générer une image d'une forêt, on peut indiquer qu'il y a de la brume (mist), que c'est en hiver (winter, snow), qu'il y a du soleil (sunny), des traces de pas dans la neige (footprints) et on obtient...
Prompt
Prompt : apocalypse environnement, destroyed buildings, cars in fire
Ce paramètre permet d'indiquer à quel point l'image doit être fidèle à notre prompt. Plus la valeur est grande, plus l'image est fidèle, et plus la valeur est petite, plus l'image se permet des libertés. Il est cependant peu recommandé de mettre ces valeurs aux extrèmes car l'image pourrait ne plus ressembler à grand chose. Les valeurs recommandées varient entre 5 et 11 (7 par défaut). Voici un exemple d'images générées avec le même prompt et la même seed, mais avec un CFG Scale différent à chaque fois.
CFG Scale
1024x1024
512x512
Avec
Sans
L'upscale sert à l'amélioration de l'image et de sa résolution. Quand il est activé, on peut choisir la méthode d'upscaling ainsi que l'agrandissement de l'image (x2, x3 ou x4). Par exemple, imaginons que je génère une image avec un modèle basique, en 512 pixels sur 512 pixels, et que je trouve que cette image est trop petite ou pas assez nette. Je peux alors utiliser l'upscale pour passer mon image à 1024 pixels sur 1024 pixels, tout en améliorant l'image en elle-même.
Upscale
Le bouton "Generate" sert tout simplement à générer l'image quand tous les paramètres sont ajustés et nous conviennent. Si, pendant que l'image se génère, vous trouvez que cette image semble ne pas être correcte ou adaptée à votre prompt, vous pouvez utiliser le bouton "interrupt" pour arrêter la génération ou le bouton "skip" pour passer la génération actuelle à la trappe.
Generate
drawing, cartoon, ugly, bad quality, low resolution
Le "negative prompt" est l'endroit où l'on décrit ce qu'on ne veut pas voir dans notre image générée. Il est préférable d'écrire les phrases en anglais et d'utiliser des mots-clés. Par exemple, imaginons que je veuille générer une personne très réaliste. Alors, après avoir écrit le prompt, je peux écrire dans le "negative prompt" que je ne veux pas que l'image ressemble à un dessin, à un cartoon, etc. Je peux écrire :
Negative Prompt
Le "Sampling Method" (la méthode d'échantillonnage) est l'algorithme qui transforme une image bruitée en une image finale. Chaque méthode est sensée influencer la qualité, la vitesse et la fiabilité de l'image générée. Elles n'ont cependant pas un énorme impact sur l'image, en effet, comme dans l'exemple ci-dessous, le sujet de la photo est bien présent dans chaque cas et on n'observe pas de différences significatives au niveau de la qualité ou du rendu général. Néanmoins, les méthodes peuvent quand-même changer le rendu final, tout dépend du prompt et du modèle utilisé. Un conseil serait de choisir "DPM++ 2M Karras", "DPM++ SDE Karras", "DPM++ 2M SDE Karras", "Euler" ou "Euler a" car ils sont les plus utilisés parmis les utilisateurs de Stable Diffusion.