Sélectionner une page

DALL-E 2, Diffusion stable, Midjourney : Comment fonctionnent les générateurs d’images IA et les artistes doivent-ils les craindre ?

En tant qu’expert en intelligence artificielle (IA), je peux affirmer que les outils de génération d’images à partir de textes (text-to-image) basés sur l’IA ont un impact considérable sur l’industrie créative. Ces outils ont suscité des débats sur le rôle de l’IA dans l’art visuel et des problèmes tels que l’appropriation de styles. La vitesse et l’efficacité de ces outils ont suscité des craintes de licenciements chez certains artistes, tandis que d’autres les ont accueillis à bras ouverts comme des outils passionnants.

Les générateurs d’images à partir de textes basés sur l’IA sont des logiciels qui créent une image à partir d’une entrée de texte de l’utilisateur, appelée « prompt ». Ces outils IA sont entraînés à partir de grandes quantités de données de paires de textes et d’images. DALL-E 2 et Midjourney n’ont pas encore rendu leurs jeux de données publics. Cependant, l’outil open-source populaire Stable Diffusion a été plus transparent quant à ce sur quoi il entraîne son IA.

La formation de ces modèles se fait en utilisant des jeux de données d’images et de textes disponibles sur internet, tels que LAION. Une fois ces jeux de données rassemblés et organisés, le modèle IA est formé avec eux. Ce processus d’entraînement enseigne à l’IA à établir des liens entre la structure visuelle, la composition et les données visuelles discernables dans l’image et comment elles se rapportent au texte accompagnant.

La prochaine étape dans le développement d’un générateur d’images à partir de textes est appelée diffusion. Dans ce processus, un bruit visuel gaussien ou « aléatoire » est ajouté progressivement à une image, tandis que l’IA est formée à chaque itération de l’image de plus en plus « bruyante ». Le processus est ensuite inversé et l’IA est enseignée à construire, à partir de pixels aléatoires, une image visuellement similaire à l’image d’entraînement d’origine.

Après cette phase de formation, l’IA peut ensuite commencer à créer, à partir de bruit, des images qui n’ont jamais existé auparavant. En pratique, cela signifie qu’un utilisateur peut maintenant accéder à un générateur d’images à partir de textes, entrer une commande de texte dans une simple zone de texte, et l’IA génère une image entièrement nouvelle en réponse.

Partagez cet article !