Tech&Co
L'acteur Brad Pitt imaginé par l'outil Stable Diffusion selon plusieurs styles artistiques

BFMTV

Dall-E, Midjourney… Comment nous avons généré des œuvres d'art grâce à l'intelligence artificielle

Elles fleurissent sur le web depuis plusieurs mois: avec seulement quelques mots, des intelligences artificielles comme Dall-E 2, Midjourney ou Stable Diffusion créent des images inédites plus impressionnantes ou étranges les unes que les autres. Un secteur au développement fulgurant qui attire aussi les géants de la tech.

Le

Vous vous réveillez en sursaut d’un rêve étrange dont vous ne souvenez plus... si ce n’est une image surréaliste: Joe Biden qui reçoit Mickey Mouse à la Maison Blanche. Comment immortaliser la scène, un peu floue, avant qu’elle ne disparaisse de votre mémoire?

Pas besoin de maîtriser Photoshop, ni même d’avoir déjà touché un crayon: tout le monde peut aujourd’hui créer des scènes photoréalistes, de véritables œuvres d’art ou des images sorties d'un rêve fiévreux en moins de 30 secondes, grâce à l’intelligence artificielle. Voici donc notre scène américaine, imparfaite, bizarre mais générée à partir d'une simple phrase.

Un exemple d'image générée par Stable Diffusion avec la commande "Joe Biden qui serre la main de Mickey Mouse à la Maison Blanche"
Un exemple d'image générée par Stable Diffusion avec la commande "Joe Biden qui serre la main de Mickey Mouse à la Maison Blanche" © Stable Diffusion/BFMTV

Pour cela, il suffit de se rendre sur l'un des sites récemment ouverts au public, comme Dall-E. Dans l'interface, pas de fioritures, juste une barre de texte. C’est tout ce qu’il faut pour créer la scène de ses rêves: d’abord, décrire en quelques mots (et en anglais) l’image qui doit être créée, aussi improbable soit-elle.

Par exemple, "un golden retriever surfant sur une nébuleuse dans l’espace" ("A golden retriever on a surfboard in space, riding a nebulae"). Puis cliquer sur "Generate", attendre une quinzaine de secondes… Et voilà, une IA a créé une image qui n’existe nulle part ailleurs.

“A golden retriever on a surfboard in space, riding a nebulae”, via Dall-E
“A golden retriever on a surfboard in space, riding a nebulae”, via Dall-E © Dall-E 2/Luc Chagnon

L'image n'est pas une copie d'un croquis déjà existant sur le Web, elle est le résultat unique d'une création totalement artificielle, imaginée en temps réel.

Pour preuve, ces programmes sont loin d'être parfaits. Certaines productions sont même parfois très perturbantes ou complètement ratées – en particulier les visages humains, souvent déformés.

Une image créée par Stable Diffusion avec la commande "un homme et une femme qui tirent la langue"
Une image créée par Stable Diffusion avec la commande "un homme et une femme qui tirent la langue" © Stable Diffusion/BFMTV

Il faut s’y reprendre à plusieurs fois pour obtenir une image totalement cohérente, et préciser sa demande en ajoutant des expressions: sur le style ("polaroid"), la lumière ("cinematic lighting"), le niveau de détail attendu ("highly detailed"), des noms d’artistes ("Picasso")...

Revoici notre golden retriever sur son surf, cette fois en indiquant des informations spécifiques: une version peinture à huile avec beaucoup de détails.

“A golden retriever on a surfboard in space, riding a nebulae, expressive oil painting, highly detailed”, via Dall-E
“A golden retriever on a surfboard in space, riding a nebulae, expressive oil painting, highly detailed”, via Dall-E © Dall-E 2/Luc Chagnon

Un nouveau décors les tableaux iconiques

Ces intelligences artificielles ne servent pas seulement à créer des situations photoréalistes ou des œuvres d’art à partir de presque rien. Elles peuvent aussi étendre des images.

Vous vous êtes déjà demandé ce qu’il se passait autour des modèles de tableaux célèbres, comme La jeune fille à la perle? C’est simple: il faut là encore copier-coller l’image originale sur Dall-E, puis cliquer sur la zone où vous voulez étendre l’image, et écrire le résultat désiré.

Là encore, il faut souvent faire plusieurs tentatives, mais les résultats peuvent être bluffants, à l'image de cette réalisation de l'artiste américain August Kamp.

Et voici ce que Tech&Co a produit en 30 minutes environ - avec toutes les imperfections de proportion et de style - avec le même outil, en se basant sur l'œuvre La Laitière de Johannes Vermeer.

Les IA peuvent aussi retravailler des images entières, par exemple pour transformer de simples dessins d’enfant en travail de pro. Ou donner un style radicalement différent à vos selfies en les modifiant… À chaque fois en tapant quelques mots, aussi simplement qu’une recherche sur internet.

Un selfie modifié par intelligence artificielle via Astria
Un selfie modifié par intelligence artificielle via Astria © Astria/Luc Chagnon
Mais "ce n’est pas une simple recherche Google: ça crée une image totalement nouvelle qui n’existe nulle part ailleurs", insiste Valentin Schmite, enseignant à Sciences Po et auteur de Propos sur l’Art et l’Intelligence artificielle.

"Machine learning" et "espace latent"

Comment ces IA procèdent-elles? Avant de pouvoir créer des œuvres inédites, les programmes doivent "apprendre" à décoder de vraies images. Pour cela, les chercheurs emploient la manière forte: ils leur font ingurgiter des centaines de millions, voire des milliards d’images de toutes sortes, récupérées sur le web et accompagnées d’une description écrite.

Ces programmes sont ensuite entraînés à détecter des récurrences dans les images grâce au "machine learning", une technique qui permet au programme de s’améliorer de manière quasi-autonome. L'IA va ainsi apprendre toute seule à distinguer un chien d’un chat, une photo d’un tableau... Chaque image est ensuite comme rangée dans une sorte de grand entrepôt virtuel – une zone appelée "espace latent".

"Vladimir Putin, Volodymyr Zelensky, Elon Musk and Emmanuel Macron in a Batman comics", via Stable Diffusion
"Vladimir Putin, Volodymyr Zelensky, Elon Musk and Emmanuel Macron in a Batman comics", via Stable Diffusion © Stable Diffusion/Thomas Leroy

Voilà pour la partie "inspiration". Mais lorsque vous demandez à ces IA de créer une image, elles doivent d’abord comprendre ce que vous écrivez. C’est possible grâce à un autre module qui étudie les descriptions écrites pour apprendre à quelle partie de l’image chaque mot correspond, et ainsi comprendre le langage naturel.

Une fois qu’elle a décodé votre requête, l'IA va déterminer quelle partie de son espace latent, ou quelle étagère de son entrepôt, y correspond le plus. Puis elle va s’atteler à la création de l’image. Et contrairement à un artiste humain, elle ne part pas d’une feuille blanche, bien au contraire: elle part d’un amas de pixels de couleurs aléatoires, qu’elle va "nettoyer" petit à petit, en modifiant certains pour se rapprocher de l’image demandée. Une technique appelée "diffusion".

Après les images, les musiques, les podcasts...

Les IA capables de créer des images à la demande ont récemment connu des développements fulgurants. "On a vu une véritable explosion de cette technologie dans les 3 ou 4 derniers mois", témoigne Valentin Schmite. En réalité, ces outils existent depuis plusieurs années mais ils nécessitaient souvent de savoir coder, et les plus performants exigeaient une puissance informatique importante. C'est désormais du passé puisque les outils sont devenus très accessibles.

Et ces IA pourront bientôt faire beaucoup plus que générer des images, car chaque semaine voit apparaître de nouvelles possibilités impressionnantes, comme la création de designs d’intérieur ou de modèles 3D – qui pourraient être utilisés dans la conception de jeux vidéo, par exemple.

Même les géants du Web sont entrés dans la danse: Google et Facebook ont récemment présenté des systèmes (pas encore accessibles au public) pour créer des vidéos entières à partir de texte, et TikTok propose déjà un outil texte-vers-image.

Et les IA ne s’attaquent pas uniquement au dessin et au cinéma, puisque certaines créent également des musiques ou même des podcasts entiers.

Mais rien ne garantit que ce rythme de progression effréné se poursuive éternellement: "On a déjà eu un 'l'hiver de l'IA' dans les années 70, le secteur alterne des phases d’optimisme et de pessimisme", raconte Valentin Schmite.

Et reste à voir comment le plus grand nombre décidera de s’en emparer: "Ce n’est pas parce que l’usage de l’appareil photo s’est démocratisé avec le smartphone que tout le monde est devenu photographe professionnel. De la même manière, ce n’est pas parce tout le monde peut créer une image à partir d’un texte que tout le monde va devenir un artiste."

Les principaux outils de créations en ligne

Dall-E 2, créé par la fondation OpenAI

• Midjourney, accessible via un serveur Discord

• Stable Diffusion, un logiciel open source utilisable via différents sites, comme DreamStudio ou PlaygroundAI, ou téléchargeable gratuitement (mais des connaissances en code et un ordinateur relativement puissant sont nécessaires)

Par Luc Chagnon