
Cet article est extrait du numéro mensuel d’octobre 2022 de Sciences et Avenir – La Recherche n°908.
Est-ce une image réelle ou produite par un algorithme ? Régulièrement, les avancées étonnantes de l’intelligence dite artificielle (IA) brouillent un peu plus les frontières entre la réalité et sa simulation. Les premiers mois de 2022 ont permis de franchir une étape inédite : arrivés à maturité, les travaux de recherche permettent, de manière ennuyeuse, de transformer les mots en images (photos, dessins, croquis, faux collages, etc.). Un écran d’ordinateur, ordinateur.
Les plus puissantes de ces technologies ne sont encore qu’en accès limité. Mais pour nous convaincre, d’autres sont déjà disponibles en ligne. Dal-E 2 (du film Enamous combinant les noms de Salvador Dalí et The Wall-E Robot) est le plus connu. Il a été dévoilé en avril par le centre de recherche privé sur l’intelligence artificielle OpenAI, fer de lance du développement. Craiyon est une version simplifiée pour le grand public. Imagen de Google, et StableDiffusion, conçu par un groupe de recherche de l’Université Ludwig-Maximilians de Munich (Allemagne) avec la start-up Stability.AI, spécialisée dans le rendu photoréaliste. À mi-parcours de la start-up américaine du même nom, leur œuvre a une esthétique. Hebdomadaire britannique en juin Économiste Elle l’a même utilisé pour concevoir sa première page : un visage rétrofuturiste sur fond de formes géométriques colorées, représentant un dossier consacré à “La nouvelle frontière de l’intelligence artificielle “
Ce flux porte un nom : “text-to-image”. Dans la première étape, l’utilisateur crée des visuels à partir de mots et de phrases en langage naturel. Mais l’état de la recherche permet d’aller beaucoup plus loin. Par exemple, en ajoutant des mots comme “marqueur”, “fusain”, “aquarelle”, mais comme “Van Gogh” ou “Dali”, par exemple, il pourra leur appliquer le style graphique correspondant.
Le niveau de détail, la fidélité au récit proposé, le réalisme des textures peuvent prêter à confusion, même pour des textes dépourvus de sens. En témoigne la capacité d’Imagen à créer une image “Le raton laveur porte un casque d’astronaute, regarde par la fenêtre la nuit “. Un résultat spectaculaire, mais le texte a nécessité beaucoup d’essais et d’erreurs avant d’obtenir un résultat satisfaisant.
Rarement, les travaux de recherche se sont retrouvés aussi rapidement au cœur des questions de société, d’industrie et d’économie. Pour preuve : fin août, un tableau intitulé Théâtre de l’Opéra de l’Espace, Produit par Midjourney et présenté au jury, a remporté un concours d’art numérique à la Colorado State Fair (USA). Un jugement qui a immédiatement exaspéré d’autres artistes, qui utilisaient eux-mêmes des logiciels d’infographie classiques. L’humain gagnant (ou plutôt le co-auteur) a dû se défendre en expliquant qu’il avait travaillé 80 heures, révisé son texte, corrigé des éléments à la main avant d’en venir à l’œuvre finale.
Des résultats différents selon la base de données d’images
Cependant, la méthodologie soulève des questions. L’artiste s’appuie ici sur la base de données sur laquelle l’algorithme est formé. Cependant, cela a des implications sur leurs performances, sans parler des biais qu’ils peuvent causer. “On peut obtenir des rendus très différents entre un algorithme entraîné sur une collection d’images postées sur Facebook et le même algorithme entraîné sur des images de Flickr, Michelle Narval, co-fondatrice du studio de création numérique U2p050 nous explique. Certains sont mieux formés que d’autres. “
Le studio a sorti le roman graphique en septembre Mobie, “dessiné” par l’algorithme VQGan+clip à partir d’une histoire courte. Mais nous avons dû expérimenter et choisir parmi cinq bases de données. “Normalement, on va commencer à écrire une phrase écrite pour un livre. Parfois ça donne directement le résultat attendu, mais parfois des phrases très longues ‘perdent’ l’IA et ne fonctionnent pas. Dans ce cas, il faut travailler par mots clés pour guider l’algorithme à la place. “, a détaillé Michelle Narval.
La révolution du « text-to-image » est en fait une extension des IA dites génératives, comme les GAN, ou réseaux génératifs antagonistes, apparus en 2014. (Lis S et A n° 858, août 2018). Cette méthode implique deux algorithmes “en face” l’un de l’autre, l’un générant le contenu, le second jugeant s’il est acceptable ou non. Il est aussi parfois combiné avec la saisie de texte, comme le GauGan 2 du géant du processeur graphique Nvidia.
Outil Gaugan de Nvidia vous permet de créer des photos à partir de croquis approximatifs. Il prédit GauGan 2 à partir d’une description textuelle. Crédit : Nvidia
L’algorithme lie une description à une image qu’il n’a jamais vue
“L’innovation d’un point de vue textuel vient du modèle du clip, qui permet de représenter du texte et des images dans un espace commun. », note Mathieu Labeau, expert en traitement automatique du langage à Télécom Paris. Diffusé en janvier 2021 par OpenAI, le clip s’est entraîné sur 400 millions d’images et leurs descriptions textuelles (légendes, métadonnées) trouvées sur Internet et n’est plus dans le image avec une seule image.L’étiquette courte (“Chien”, “Chaise”) est comme le jeu de données destiné aux chercheurs.L’aspect large de ce matériel d’entraînement permet alors à l’algorithme d’extrapoler pour associer une description à une image qu’il n’a jamais vue.
L’objectif principal d’OpenAI était de pouvoir indexer et classer les images plus efficacement. Les clips peuvent être utilisés pour rechercher des images similaires ou pour restreindre le contenu. Mais le projet a conduit l’entreprise à développer l’algorithme génératif Dal-e, dont la première version est sortie à peu près au même moment que Clip. “Notre modèle est proche de GPT (Modèle de traitement du langage naturel développé par OpenAI, ndlr)Consiste à prédire un élément à la fois (mots, articles, espaces, ponctuation…, notes de l’éditeur) Au lieu d’être des mots, ces éléments consistent en des extraits d’images », a expliqué Boris Daima, créateur de Craiyon.
Pour l’élément « image », une autre méthode intervient : « expansion ». De tels algorithmes d’apprentissage en profondeur génèrent du “bruit”, c’est-à-dire des nuages de pixels aléatoires. Il « rejette » alors progressivement les pixels, non plus au hasard, mais en prenant en compte le texte décrivant l’image souhaitée. C’est l’efficacité de cette méthode qui permet le photoréalisme de Dal-E2, mal géré par la première version (qui n’utilisait pas la diffusion) ou par Imagen.
Ce n’est que le début. Début septembre, une équipe du Massachusetts Institute of Technology (Cambridge, USA) a présenté la diffusion composable, une amélioration de la diffusion. “Les algorithmes actuels de ‘texte en image’ ont quelques difficultés à générer des scènes à partir de descriptions complexes, par exemple lorsqu’il y a plusieurs adjectifs ; des éléments peuvent manquer à l’image. “, note Shuang Li, co-auteur de l’étude.
La méthode proposée fait alors intervenir plusieurs modèles étendus, chacun considérant une partie de la phrase. Cela montre une fois de plus que si l’IA fait preuve de compétences à couper le souffle, les humains sont aux commandes. C’est lui qui maîtrise le code, le publie ou non, l’améliore, développe les modèles, décide du jeu de données d’entraînement. Si les machines ont de la créativité, cela dépend (encore) des humains.
Le côté obscur de la performance technologique
Impossible, avec l’algorithme Midjourney ou Dal-E2, d’obtenir une image à partir de termes à connotation sexuelle ou violente. Ils sont posés sur leurs blocs. Mais StableDiffusion n’a pas ces garanties… s’inquiète donc Joshua Achiam, expert en apprentissage par renforcement chez OpenAI. Dans des tweets publiés le 10 septembre, il a salué la promesse d’une créativité “texte-image”, mais craint un afflux de contenus violents, choquants et manipulateurs.
Autre problème récurrent en IA : le biais. Étant donné que ces algorithmes sont entraînés sur des contenus trouvés sur Internet, ils entretiennent tous les types de discrimination. À cela s’ajoute la violation potentielle de la violation du droit d’auteur. L’agence photo Getty Images a annoncé fin septembre qu’elle refuserait les images créées par l’IA, œuvre protégée pouvant être affichée sur les bases d’entraînement sans autorisation.