Imaginons que nous alimentons un modèle avec plusieurs portraits d’un type de chat. Une proportion de bruit gaussien est injecté à chaque portrait, dégradant l’image partiellement.

Pour entraîner le modèle, on lui demande de prédire le bruit qui se trouve dans l’image et de l’enlever, ce qui tente de recréer l’image originale.

Au fur et à mesure de l’entraînement, on injecte de plus en plus de bruit. Éventuellement, on demandera au modèle de trouver le chat dans un bruit pur, même si il n’y avait aucune trace d’image de chat.

Représentation inspirée de Diffusion models explained in 4-difficulty levels et How AI Image Generators Work
Le bruit est donc la matière première de la génération d’images. C’est la qualité de ce bruit qui donne cette lumière qu’on reconnaît dans plusieurs images générées; pour chaque zone claire, il y a une zone sombre.

Un exemple simple de bruit à image est Dino Diffusion, créé par Ollin Boer Bohan, et entraîné sur 60 illustrations botanique tirées du domaine public. Sur la démonstration, nous pouvons voir que modifier le bruit permet d’obtenir une image différente, que modifier le nombres d’étapes de débruitage a un impact sur la finesse des détails, et nous avons aussi la possibilité d’influencer la génération à l’aide d’un tracé.
Un modèle bien entraîné générera des images qui semblent plausibles, s’harmonisent avec le corpus de données utilisé, et ne ressemblant pas à des images spécifiques tirées du corpus de données (mémorisation).
CLIP est un modèle entraîné à partir de paires d’image et de texte. À force de d’analyser des images en relation avec des textes, des corrélations émergent. Par exemple, le modèle peut reconnaître un chat, mais aussi ses contours, sa fourrure, ses yeux. Des mots, des parties de mots, et même des signes de ponctuations sont transformés en une série de chiffre, un encodage numérique que l’on nomme vecteurs.

a painting of a tabby cat, beautiful green eyes, fluffy fur

Cartes thermiques de l’attention portée durant la génération à 1) painting 2) cat 3) eyes 4) fur. Images réalisées à l’aide de ComfyUI DAAM.
Des corrélations erronées nuiront à la qualité du modèle. Si des images de chats étaient identifiées comme étant des chiens, demander d’activer le concept chien via une requête de génération d’image retournerait plutôt l’image d’un chat.
Par exemple, dans cet exemple inspiré de Visualizing the Latent Space, on entraîne des images de gens souriants. Chaque image est transformée en un vecteur, une série de chiffres. En faisant une moyenne de ces vecteurs, on obtient un vecteur représentant une personne moyenne qui sourit. En répétant la même opération sur une série d’image de gens qui ne sourient pas, on peut faire la différence de ces deux vecteurs pour obtenir le concept de sourire.
.png)
De la différence entre ces deux moyennes, on extrait le concept de sourire qu’on pourra ensuite appliquer à d’autres images, même s’il ne s’agit pas d’un humain.