DALL-E 3 est la plateforme de génération d’images par intelligence artificielle de OpenAI. Elle permet aux utilisateurs de créer des œuvres d’art uniques à partir de prompt textuels ou de modifier leurs photos existantes pour créer de nouvelles œuvres d’art à l’aide d’invites textuelles.
À l’instar de GPT-4, DALL-E est un modèle linguistique transformateur. Il prend en compte simultanément le texte et l’image sous la forme d’un flux de données unifié comportant jusqu’à 1280 tokens et est formé pour utiliser la vraisemblance maximale afin de produire tous les tokens successivement. Cette méthode d’apprentissage autorise DALL-E non seulement à créer une image à partir de rien, mais également à régénérer n’importe quelle zone rectangulaire d’une image préexistante s’étendant jusqu’au coin inférieur droit, de façon cohérente avec l’indication textuelle.