Qu'est-ce que Dall-E et comment fonctionne-t-il ?
Dall-E est une technologie d'intelligence artificielle (IA) générative qui permet aux utilisateurs de créer des images en soumettant des invites textuelles. En coulisses, Dall-E utilise des technologies avancées de conversion de texte en graphique pour transformer des mots simples en images. Dall-E est un réseau neuronal entraîné qui peut générer des images entièrement nouvelles dans une variété de styles en fonction de l'invite de l'utilisateur.
Le nom Dall-E est un hommage aux deux thèmes centraux de cette technologie, faisant allusion à l'objectif de fusionner l'art et l'intelligence artificielle. La première partie (Dall) évoque l'artiste surréaliste espagnol Salvador Dalí, tandis que la seconde (E) fait référence au robot fictif Wall-E de Disney. La combinaison de ces deux noms reflète le pouvoir illustratif abstrait et quelque peu surréaliste de cette technologie.
Le fournisseur d'IA OpenAI a développé Dall-E et lancé la première version en janvier 2021. La technologie utilise des modèles d'apprentissage profond ainsi que le grand modèle linguistique (LLM) GPT-3 comme base pour comprendre les prompts des utilisateurs en langage naturel et générer de nouvelles images.
Dall-E est l'évolution d'un projet lancé par OpenAI en juin 2020. Initialement appelé Image GPT, ce projet représentait une première tentative visant à démontrer comment un réseau neuronal pouvait être utilisé pour créer des images de haute qualité. Dall-E a élargi le concept initial d'Image GPT en permettant aux utilisateurs de générer de nouvelles images à partir de suggestions textuelles, tout comme GPT-3 peut générer de nouveaux textes en réponse à des suggestions textuelles en langage naturel.
La technologie Dall-E appartient à une catégorie d'IA parfois appelée « conception générative ». Elle est en concurrence avec des technologies similaires, telles que Stable Diffusion et Midjourney.
Comment fonctionne Dall-E ?
Dall-E utilise plusieurs technologies pour générer des images, notamment le traitement du langage naturel, les modèles linguistiques à grande échelle (LLM) et le traitement par diffusion.
Le Dall-E original a été construit à partir d'un sous-ensemble du LLM GPT-3. Cependant, au lieu des 175 milliards de paramètres fournis par GPT-3, Dall-E n'en a utilisé que 12 milliards, une approche conçue pour optimiser la génération d'images. Comme le LLM GPT-3, Dall-E utilise un réseau neuronal transformateur, également appelé transformateur, pour permettre au modèle de créer et de comprendre les connexions entre différents concepts.
La méthode originale utilisée dans Dall-E pour mettre en œuvre la génération de texte en image a été décrite dans l'article de recherche « Zero-Shot Text-to-Image Generation », publié en février 2021. Le zero-shot est une méthode d'IA qui permet à un modèle d'exécuter une tâche, telle que la génération d'une image entièrement nouvelle, en utilisant des connaissances préalables et des concepts connexes.
Pour aider à prouver que le modèle Dall-E pouvait générer correctement des images, OpenAI a également développé le modèle CLIP (Contrastive Language-Image Pre-training), qui a été entraîné sur 400 millions d'images étiquetées. OpenAI a utilisé CLIP pour aider à évaluer les résultats de Dall-E en analysant quelle légende était la plus appropriée pour une image générée.
OpenAI a annoncé la première version de Dall-E en janvier 2021. Dall-E générait des images à partir de texte à l'aide d'une technologie appelée auto-encodeur variationnel discret. Le dVAE s'inspirait librement des recherches menées par la division DeepMind d'Alphabet avec l'auto-encodeur variationnel quantifié vectoriel.
Le passage à Dall-E 2
En avril 2022, OpenAI a lancé Dall-E 2, qui offrait aux utilisateurs une série de fonctionnalités améliorées. Il a également amélioré les méthodes utilisées pour générer des images, ce qui a permis de créer une plateforme capable de fournir des images plus haut de gamme et plus photoréalistes. L'un des changements les plus importants a été le passage à un modèle de diffusion intégrant les données CLIP afin de générer des images de meilleure qualité.
Par rapport au dVAE utilisé dans Dall-E, le modèle de diffusion pouvait générer des images de qualité encore supérieure. OpenAI affirmait que Dall-E 2 pouvait créer des images quatre fois plus résolues que celles de Dall-E. Dall-E 2 offrait également des améliorations en termes de vitesse et de taille des images, permettant aux utilisateurs de générer des images plus grandes à un rythme plus rapide.
Dall-E 2 a également élargi les possibilités de personnalisation d'une image et d'application de différents styles. Dans Dall-E 2, par exemple, un prompt peut spécifier qu'une image doit être dessinée sous forme de pixel art ou de peinture à l'huile. Dall-E 2 a également introduit le concept d'outpainting, qui permet aux utilisateurs de créer une image comme extension (ou outpainting) d'une image originale.
L'introduction de Dall-E 3
OpenAI a lancé Dall-E 3 en octobre 2023. Dall-E 3 s'appuie sur Dall-E 2 et l'améliore, offrant une meilleure qualité d'image et une plus grande fidélité. Contrairement à son prédécesseur, Dall-E 3 est également intégré nativement à ChatGPT. Désormais, tout utilisateur peut créer des images générées par l'IA à partir d'un prompt ChatGPT. Cependant, la version gratuite de ChatGPT limite les utilisateurs à deux images par jour. Les développeurs peuvent également accéder aux services Dall-E 3 via l'interface de programmation d'application (API) OpenAI, ce qui leur permet d'intégrer directement les fonctionnalités de Dall-E 3 dans leurs applications.
Dall-E 3 apporte des améliorations significatives à la technologie de conversion texte-image. Les utilisateurs peuvent générer des images plus facilement grâce à une simple conversation, et Dall-E 3 les rend plus fidèlement. Dall-E 3 peut traiter des invites complexes sans se tromper et rendre des détails complexes dans un large éventail de styles. Il peut comprendre des instructions plus nuancées. De plus, ChatGPT affine automatiquement l'invite de l'utilisateur, en adaptant l'invite originale pour obtenir des résultats plus précis. Les utilisateurs peuvent également demander des révisions directement dans le même chat que la première demande d'image.
Les images elles-mêmes sont également supérieures à celles de Dall-E 2. Elles sont plus précises en termes de réponse aux demandes, et les détails sont plus nets, plus précis et plus raffinés visuellement. Dall-E 3 peut également générer des images au format paysage et portrait. De plus, Dall-E 3 peut ajouter du texte à une image de manière beaucoup plus efficace que Dall-E 2, même si les capacités textuelles restent encore quelque peu imprévisibles.
OpenAI a ajouté plusieurs mesures de sécurité à Dall-E 3 afin de limiter sa capacité à générer du contenu pour adultes, violent ou haineux. Par exemple, Dall-E 3 ne renvoie pas d'image si un prompt contient des préjugés préjudiciables ou le nom d'une personnalité publique. OpenAI a également pris des mesures pour améliorer la représentation démographique dans les images générées. De plus, Dall-E 3 refuse toute demande qui sollicite le style d'un artiste vivant. Les artistes peuvent également refuser que leurs œuvres soient utilisées pour entraîner des modèles.
Après la sortie de Dall-E 3, OpenAI a cessé d'accepter de nouveaux clients pour Dall-E 2. Cela signifie également que les nouveaux clients ne peuvent plus acheter de crédits Dall-E 2, mais que les crédits achetés précédemment restent valables.
Quels sont les avantages de Dall-E ?
Les avantages potentiels de Dall-E sont les suivants :
- Rapidité. Dall-E peut générer des images en peu de temps, souvent en moins d'une minute. Un utilisateur peut créer une image détaillée et de haute qualité à partir d'un simple prompt textuel.
- Personnalisation. Avec le bon prompt textuel, un utilisateur peut créer une image hautement personnalisée de presque tout ce qui peut être imaginé, dans les limites imposées par les contenus pour adultes, violents ou haineux.
- Accessibilité. Dall-E 3 étant accessible via ChatGPT à l'aide du langage naturel, Dall-E est disponible pour un large éventail d'utilisateurs. Il ne nécessite aucune formation approfondie ni aucune compétence particulière en programmation.
- Affiner. Un utilisateur peut affiner une image grâce à des prompts successifs dans la même session de chat que le prompt initial. L'utilisateur peut également utiliser l'invite générée par Dall-E lorsqu'il lance une nouvelle session de chat. Dall-E suggère également des invites pour affiner l'image après avoir créé l'image initiale.
- Flexibilité. Dall-E peut analyser une image soumise par l'utilisateur et, à partir de celle-ci, générer une nouvelle image en fonction des instructions fournies par l'utilisateur.
Quelles sont les limites de Dall-E ?
Bien que Dall-E présente de nombreux avantages, il soulève également plusieurs préoccupations importantes :
- Droits d'auteur. Par le passé, des inquiétudes ont été exprimées concernant les droits d'auteur sur les images créées par Dall-E, ainsi que sur la question de savoir si le modèle avait été entraîné à partir d'images protégées par des droits d'auteur. Avec Dall-E 3, OpenAI a pris plusieurs mesures pour répondre à certaines de ces préoccupations, mais l'efficacité de ces mesures reste incertaine.
- Légitimité des images. Certains remettent en question la légitimité et l'éthique de l'art généré par l'IA et se demandent s'il ne risque pas de remplacer les humains. Cette controverse va se poursuivre dans un avenir prévisible, car il n'existe pas de réponse claire à ces préoccupations. Cependant, OpenAI mène des recherches afin de trouver des moyens d'identifier les images créées à l'aide de l'IA.
- Ensemble de données. Même si Dall-E a été entraîné à l'aide d'un vaste ensemble de données, une grande quantité d'images et de données descriptives reste inexploitée. Ainsi, un prompt utilisateur peut ne pas générer l'image souhaitée, car le modèle ne dispose pas des informations fondamentales nécessaires.
- Réalisme. Bien que Dall-E 3 ait considérablement amélioré la qualité des images générées, certaines images peuvent ne pas sembler suffisamment réalistes pour certains utilisateurs.
- Contexte. Pour obtenir l'image souhaitée, l'utilisateur doit fournir une consigne clairement définie. Si la consigne est trop générique ou manque de contexte, l'image générée par Dall-E risque d'être inexacte. Même des précisions ultérieures peuvent ne pas aboutir à l'image attendue.
- Biais. Bien qu'OpenAI prenne des mesures pour réduire les biais dans les images Dall-E, le risque de biais peut toujours exister autour de questions telles que la race, la classe sociale, le genre, les systèmes de croyances ou le pays d'origine.
Cas d'utilisation de Dall-E
En tant que technologie d'IA générative, Dall-E 3 offre un large éventail d'utilisations potentielles pour les particuliers comme pour les organisations :
- Inspiration créative. Cette technologie peut être utilisée pour aider les artistes ou d'autres personnes à créer quelque chose de nouveau. Dall-E peut également être utilisé pour soutenir un processus créatif existant.
- Divertissement. Les images créées par Dall-E peuvent potentiellement être utilisées dans des livres ou des jeux. Dall-E peut aller au-delà des images traditionnelles générées par ordinateur, car les invites facilitent la création de graphiques.
- Éducation. Les enseignants et les éducateurs peuvent utiliser Dall-E pour générer des images afin d'expliquer différents concepts.
- Publicité et marketing. La capacité à créer des images totalement uniques et originales peut être utile dans le domaine de la publicité et du marketing.
- Conception de produits. Un concepteur de produits peut utiliser Dall-E pour visualiser quelque chose de nouveau, ce qui peut être beaucoup plus rapide que d'utiliser les technologies traditionnelles de conception assistée par ordinateur.
- Art. Dall-E peut être utilisé par tout le monde pour créer de nouvelles œuvres d'art à apprécier et à exposer.
- Création de mode. En complément des outils existants, Dall-E peut potentiellement aider les créateurs de mode à imaginer de nouveaux concepts.
Combien coûte Dall-E ?
Dall-E 3 est désormais intégré à ChatGPT et est disponible pour les utilisateurs disposant d'un abonnement payant à ChatGPT, notamment les formules Plus, Team et Enterprise. Les formules sont disponibles à partir de 20 dollars par utilisateur et par mois. Les personnes utilisant la version gratuite de ChatGPT ne peuvent générer que deux images Dall-E par jour. OpenAI n'accepte plus de nouveaux clients pour Dall-E 2.
Dall-E 3 est également disponible pour les utilisateurs de Microsoft Copilot. Microsoft ne limite pas le nombre d'images qu'un utilisateur peut générer chaque jour. En revanche, l'entreprise limite le nombre de boosts disponibles pour chaque formule d'abonnement. Un boost est une amélioration des performances dont bénéficie le générateur d'images à chaque fois qu'il crée une image. La formule gratuite n'offre que 15 boosts par jour. Ce nombre augmente avec les abonnements payants.
Les développeurs peuvent également accéder aux fonctionnalités de Dall-E 2 et Dall-E 3 via l'API OpenAI. L'API leur permet d'intégrer directement les fonctionnalités de Dall-E dans leurs applications. Ce tableau présente les tarifs actuels d'OpenAI pour le service Dall-E de l'API.
| Modèle | Qualité | Résolution | Prix |
| Dall-E 3 | Standard | 1024×1024 | $0.040 par image |
| Standard | 1024×1792, 1792×1024 | $0.080 par image | |
| Dall-E 3 | HD | 1024×1024 | $0.080 par image |
| HD | 1024×1792, 1792×1024 | $0.120 par image | |
| Dall-E 2 | 1024×1024 | $0.020 par image | |
| 512x512 | $0.018 par image | ||
| 256x256 | $0.016 par image |
Les tarifs Dall-E 2 s'appliquent uniquement aux clients existants. Tous les prix indiqués ici sont susceptibles d'être modifiés. OpenAI tient à jour une page dédiée aux tarifs sur son site web.
Découvrez les différences entre l'IA générative et l'apprentissage automatique. Apprenez tout ce que vous devez savoir sur les modèles d'IA fondamentaux, qui sont des modèles d'IA à grande échelle et adaptables qui redéfinissent l'IA d'entreprise. Explorez les facteurs à prendre en compte pour obtenir une certification en IA. Découvrez comment l'IA va influencer l'avenir du marketing de contenu.
