DeepFloyd est un modèle innovant de génération de texte en image en partenariat avec Stability AI.
Description et caractéristiques de DeepFloyd
- Compréhension approfondie des invites textuelles : Le pipeline de génération s’appuie sur le modèle linguistique T5-XXL-1.1 comme encodeur de texte. Grâce à de nombreuses couches de cross-attention texte-image, il assure une excellente correspondance entre les invites et les images générées.
- Intégration de descriptions textuelles dans les images : En exploitant les capacités du modèle T5, DeepFloyd IF produit du texte cohérent et clair à proximité d’objets aux caractéristiques variées et dans différentes relations spatiales.
- Degré élevé de photoréalisme : Le modèle obtient un score FID de 6,66 sur le jeu de données COCO, témoignant de son haut degré de photoréalisme.
- Changement de rapport d’aspect : DeepFloyd IF est capable de générer des images avec des rapports d’aspect non standard (vertical ou horizontal) ainsi qu’avec le rapport d’aspect carré classique.
- Traductions image-à-image en zero-shot : La modification d’image s’effectue en redimensionnant l’image originale à 64 pixels, en ajoutant du bruit par diffusion avant et en utilisant une diffusion arrière avec une nouvelle invite pour débruiter l’image. Le style peut être modifié grâce à des modules de super-résolution utilisant une description textuelle d’invite.
- Exemples d’invites : DeepFloyd IF est capable de créer divers concepts de fusion en utilisant des invites pour organiser textes, styles et relations spatiales en fonction des besoins des utilisateurs.
Définitions et processus
DeepFloyd IF est un modèle modulaire, en cascade et de diffusion de pixels. Il comprend plusieurs modules neuronaux dont les interactions au sein d’une même architecture créent une synergie.
La génération de données haute résolution s’effectue de manière en cascade, en utilisant une série de modèles entraînés individuellement à différentes résolutions. Les modèles de base et de super-résolution sont des modèles de diffusion, où une chaîne de Markov d’étapes est utilisée pour injecter du bruit aléatoire dans les données avant que le processus ne soit inversé pour générer de nouveaux échantillons de données à partir du bruit.
Entraînement sur un ensemble de données
DeepFloyd IF a été entraîné sur un ensemble de données LAION-A de haute qualité et personnalisé, contenant 1 milliard de paires (image, texte).
Licence
Initialement, DeepFloyd IF est publié sous une licence de recherche. L’objectif est de passer à une licence permissive après avoir reçu des commentaires et des retours d’expérience.
Recherche future
Les chercheurs sont encouragés à explorer des questions de recherche techniques, académiques et éthiques pour améliorer les performances, l’efficacité et les applications potentielles du modèle.
Ressources
Pour en savoir plus sur DeepFloyd IF, consultez les ressources suivantes :
- Espace Hugging Face : https://huggingface.co/spaces/DeepFloyd/IF