Nous faisons nos premiers pas en texte à image à l’aide de ComfyUI, mais les grands principes restent les mêmes sur diverses plateformes. Pour ce processus, nous utiliserons Stable Diffusion XL (SDXL), entraîné sur des images d’environ 1024 pixels. Avant d’explorer chaque composante, voici un aperçu général:

Un premier nœud Load Checkpoint nous permet de charger un modèle stocké sur le disque dur. Celui-ci a typiquement trois extrants: Model, CLIP, VAE
Ces trois composantes peuvent aussi être chargées séparément dans certains cas, à l’aide de trois nœuds à la place d’un seul.
Le choix de modèles ou d’encodeurs dépend généralement de l’usage qu’on veut en faire. On retrouvera souvent différentes saveurs de modèles entraînés sur une base. Certains ont une meilleure adhérence aux requêtes, une plus grande étendue de concepts, une meilleure versatilité stylistique, ou sont simplement mieux documentés. En général, on retrouve ces modèles sur le site Hugging Face. Pour voir les modèles qui ont présentement la cote, consultez le tableau d’honneur des modèles texte à image.
Dans le cadre de l’atelier Génération d’images par IA: Bases et enjeux, j’utilise principalement Juggernaut X basé sur Stable Diffusion XL pour sa versatilité. Sa structure de requête précise qui permet d’utiliser certains termes clés qui délimitent mieux les couleurs, la composition, et plus. Stable Diffusion XL, sur lequel Juggernaut X est basé, supporte aussi une grande quantité de ControlNet, ce qui n’est pas le cas pour des modèles plus récents qui offrent une meilleure adhérence et qualité d’image comme Flux ou Hi-Dream. Malgré que ces modèles soient ouverts, leur lourdeur fait que peu de contributeurs peuvent les améliorer.
<aside> <img src="/icons/color-palette_blue.svg" alt="/icons/color-palette_blue.svg" width="40px" />
Consultez bien les licences des images et modèles que vous utilisez. Certaines images qui sont typiquement libres de droit interdisent maintenant l’usage avec des outils d’IA (ex. licence Unsplash+). De plus, plusieurs modèles eux-mêmes interdisent différents usages, que ce soit la génération d’images à des fins commerciales, pour des fins de désinformation ou autres usages illicites.
</aside>
Dans un deuxième temps, deux nœuds CLIP Text Encode contenant des requêtes sont ajoutés. Le texte qu’ils contiennent formeront des influences positives ou négatives, selon leur entrée assignée dans le nœud suivant qui débruitera l’image.
La génération d'image requiert habituellement une requête ou prompt pour guider le résultat. Malgré qu'il est possible d'utiliser le français, les résultats sont souvent moins intéressants car les corpus de donnes sont plus communément étiquetés en anglais. Avoir une bonne culture visuelle bien nourrie et connaître les termes décrivant les aspects d’une image est important pour contrôler la génération.