Remark DALL-E pourrait déclencher une révolution créative

Clause de non-responsabilité: Toutes les images de cette histoire ont été générées à l’aide de l’intelligence artificielle..

Toutes les quelques années, une technologie émerge qui divise nettement le monde en avant et après. Je me souviens de la première fois où j’ai vu une vidéo YouTube intégrée dans une page Web ; la première fois que j’ai synchronisé des fichiers Evernote sur plusieurs appareils ; la première fois, j’ai scanné les tweets de personnes à proximité pour voir ce qu’elles disaient à propos d’une émission que je regardais.

Je me souviens de la première fois que j’ai fait Shazam avec une chanson, j’ai appelé un Uber et je suis allé en direct en utilisant Meerkat. Ce qui distingue ces moments, je pense, c’est le sentiment qu’un ensemble imprévisible de nouvelles possibilités a été débloqué. Que deviendrait le Web si vous pouviez facilement y ajouter des clips vidéo ? Quand pouvez-vous appeler n’importe quel fichier sur votre téléphone depuis le cloud ? Quand pourriez-vous vous diffuser dans le monde ?

Cela fait quelques années que je n’ai pas vu le genre de technologie naissante qui m’a fait appeler mes amis et leur dire : Tu dois voir ça. Mais cette semaine je l’ai fait, car j’en ai un nouveau à ajouter à la liste. Il s’agit d’un outil d’imagerie appelé DALL-E, et bien que je n’aie aucune idée de la façon dont il va être utilisé, c’est l’un des nouveaux produits les plus convaincants que j’ai vus depuis que j’ai commencé à écrire ce bulletin.

Techniquement, la technologie en question est DALL-E deux. Il a été créé par OpenAI, une société de San Francisco âgée de sept ans dont la mission est de créer une intelligence générale artificielle sûre et utile. OpenAI est déjà bien connu dans son domaine pour avoir créé GPT-3, un outil puissant permettant de générer des passages de texte sophistiqués à partir de simples invites, et Copilot, un outil qui aide les ingénieurs logiciels à automatiser l’écriture de code.

DALL-E – une combinaison du surréaliste Salvador Dalí et Pixar WALL-E – reçoit des invites de texte et génère des images à partir de celles-ci. En janvier 2021, la société a publié la première version de l’outil, limitée à des carrés mesurant 256 par 256 pixels.

Mais la deuxième version, qui est entrée dans une version bêta de recherche privée en avril, ressemble à un saut radical. Les images font maintenant 1024 par 1024 pixels et peuvent incorporer de nouvelles techniques telles que le “inpainting” – en remplaçant un ou plusieurs éléments d’une image par un autre. (Imaginez prendre une photo d’une orange dans un bol et la remplacer par une pomme.) DALL-E a également amélioré sa compréhension de la relation entre les objets, ce qui l’aide à représenter des scènes de plus en plus fantastiques – un koala enterrant un ballon de basket, un astronaute faisant du vélo à cheval.

pendant des semaines, Threads d’image générés par DALL-E prennent le contrôle de ma chronologie Twitter. Et après avoir réfléchi à ce que je pourrais faire avec la technologie… c’est-à-dire perdre d’innombrables heures dessus — une personne vraiment sympa d’OpenAI a eu pitié de moi et m’a invité à la bêta de recherche privée. Le nombre de personnes qui y ont accès se compte maintenant par milliers, m’a dit aujourd’hui une porte-parole ; l’entreprise prévoit d’ajouter 1 000 personnes par semaine.


En créant un compte, OpenAI se conforme à la politique de contenu de DALL-E, qui est conçue pour empêcher les abus potentiels les plus évidents de la plate-forme. Aucune haine, harcèlement, violence, sexe ou nudité n’est autorisé, et l’entreprise vous demande également de ne pas créer d’images liées à la politique ou à la politique. (Ici, il convient de noter que parmi les co-fondateurs d’OpenAI se trouve Elon Musk, qui est célèbre pour s’être fâché contre Twitter pour un ensemble de politiques beaucoup moins restrictives. Il a quitté le conseil d’administration en 2018.)

DALL-E évite également une grande partie de l’imagerie potentielle en ajoutant des mots-clés (“shot” par exemple) à une liste de blocage. Vous n’êtes pas non plus autorisé à l’utiliser pour créer des images destinées à tromper – les deepfakes ne sont pas autorisés. Et bien qu’il n’y ait aucune interdiction d’essayer de créer des images basées sur des personnalités publiques, vous ne pouvez pas télécharger de photos de personnes sans leur permission, et la technologie semble légèrement flouter la plupart des visages pour indiquer clairement que les images ont été manipulées.

Une fois que vous êtes d’accord avec cela, vous êtes présenté avec l’interface délicieusement simple de DALL-E : une zone de texte vous invitant à créer tout ce que vous pouvez penser, permettant la politique de contenu. Imaginez que vous utilisez la barre de recherche Google comme vous le feriez avec Photoshop – c’est DALL-E. S’inspirant du moteur de recherche, DALL-E inclut un bouton “Surprenez-moi” qui pré-remplit le texte avec une requête suggérée, basée sur les succès passés. J’ai souvent utilisé cela pour avoir des idées pour essayer des styles artistiques que je n’aurais peut-être jamais envisagés autrement – une “macrophotographie 35 mm”, par exemple, ou du pixel art.

Pour chacune de mes requêtes initiales, DALL-E prendrait environ 15 secondes pour générer 10 images. (Plus tôt cette semaine, le nombre d’images a été réduit à six pour permettre à plus de personnes d’y accéder.) Presque à chaque fois, je me suis retrouvé à jurer à haute voix et à rire de la qualité des résultats.

Par exemple, voici le résultat de “un chien shiba inu déguisé en pompier”.

Et en voici un d'”un bouledogue déguisé en sorcier, de l’art numérique”.

J’aime tellement ces faux chiens IA. Je veux les adopter et ensuite écrire des livres pour enfants à leur sujet. Si le métaverse existe, je veux qu’ils m’y rejoignent.

Vous savez qui d’autre peut venir ? “Grenouille dans un chapeau, art numérique.”

Pourquoi est-il littéralement parfait ?

Sur notre serveur Sidechannel Discord, j’ai commencé à recevoir des demandes. Quelqu’un a demandé de représenter “le métavers la nuit, l’art numérique”. Ce qui est revenu, pensai-je, était convenablement grandiose et abstrait :

Je n’essaierai pas d’expliquer ici comment DALL-E crée ces images, en partie parce que je travaille toujours à les comprendre. (L’une des technologies clés impliquées, la “diffusion”, est utilement expliquée dans ce billet de blog Google AI de l’année dernière.) Mais j’ai été frappé à plusieurs reprises par la créativité de cette technologie d’imagerie.

Voir, par exemple, deux résultats partagés sur mon Discord par un autre lecteur avec un accès DALL-E. Tout d’abord, regardez l’ensemble de résultats pour “Un économiste baissier devant un graphique boursier en baisse, art numérique”.

Et deuxièmement, “Un économiste haussier devant un graphique d’un marché boursier en hausse avec une ligne montante, synthwave, art numérique”.

C’est impressionnant la mesure dans laquelle DALL-E capture l’émotion ici : la peur et l’exaspération de l’ours et l’agressivité du taureau. Il semble faux de décrire tout cela comme “créatif” – ce que nous voyons ici n’est rien de plus que des suppositions probabilistes – et pourtant ils ont le même effet sur moi que si je regardais quelque chose de vraiment créatif.

Un autre aspect attrayant de DALL-E est la façon dont il tentera de résoudre un seul problème de plusieurs manières. Par exemple, quand je lui ai demandé de me montrer “une délicieuse brioche à la cannelle avec de grands yeux”, il a dû trouver comment représenter les yeux.

Parfois, DALL-E ajoutait une paire d’yeux en plastique à un rouleau, comme je l’aurais fait. D’autres fois, il a créé des yeux à partir de l’espace négatif du glaçage. Et dans un cas fait les yeux dehors petits pains à la cannelle miniatures.

C’était l’une des fois où j’ai juré à haute voix et j’ai commencé à rire.

DALL-E est l’outil d’imagerie le plus avancé que j’ai jamais vu, mais c’est loin d’être le seul. J’ai aussi légèrement expérimenté un outil similaire appelé Midjourney, qui est également en version bêta ; Google en a annoncé un autre, appelé Imagen, mais n’a pas encore autorisé les étrangers à l’essayer. Un troisième outil, DALL-E Mini, a généré une série d’images virales ces derniers jours ; cela n’a cependant rien à voir avec OpenAI ou DALL-E, et j’imagine que le développeur recevra bientôt une lettre de cessation et d’abstention.

OpenAI m’a dit qu’il n’avait pas encore pris de décision quant à savoir si et comment DALL-E pourrait un jour devenir plus généralement disponible. L’objectif de l’enquête bêta actuelle est de montrer que les gens utilisent cette technologie, en adaptant à la fois l’outil et les politiques de contenu selon les besoins.

Et pourtant, le nombre de cas d’utilisation que les artistes ont découverts pour DALL-E est stupéfiant. Un artiste utilise DALL-E pour créer des filtres de réalité augmentée pour des applications sociales. Un chef de Miami l’utilise pour avoir de nouvelles idées sur la façon de préparer ses plats. Ben Thompson a écrit un article prémonitoire sur la façon dont DALL-E pourrait être utilisé pour créer des environnements et des objets extrêmement bon marché dans le métaverse.

Il est naturel et approprié de s’inquiéter de ce que ce type d’automatisation peut faire aux illustrateurs professionnels. Il se peut que de nombreux emplois soient perdus. Et pourtant, je ne peux m’empêcher de penser que des outils comme DALL-E peuvent être utiles dans vos workflows. Et s’ils demandaient à DALL-E de leur esquisser quelques concepts avant de commencer, par exemple ? L’outil vous permet de créer des variations de n’importe quelle image ; J’avais l’habitude de suggérer des alternatives Plateforme logos :

Je vais m’en tenir au logo que j’ai. Mais si j’étais un illustrateur, j’apprécierais peut-être les suggestions alternatives, ne serait-ce que pour m’inspirer.

Cela vaut également la peine de considérer le potentiel créatif que ces outils peuvent ouvrir pour des personnes qui ne penseraient jamais (ou ne pourraient pas se permettre) d’embaucher un illustrateur. Enfant, j’écrivais mes propres bandes dessinées, mais mes compétences en illustration n’ont jamais beaucoup progressé. Et si j’avais pu demander à DALL-E de dessiner tous mes super-héros pour moi ?

D’une part, cela ne semble pas être le genre d’outil que la plupart des gens utiliseraient tous les jours. Et pourtant, j’imagine que dans les mois et les années à venir, nous trouverons de plus en plus d’applications créatives de la technologie comme celle-ci : dans le commerce électronique, dans les applications sociales, à la maison et au travail. Pour les artistes, il semble que ce pourrait être l’un des outils les plus puissants pour remixer la culture que nous ayons jamais vus – en supposant que les problèmes de droit d’auteur soient résolus. (Il n’est pas tout à fait clair si l’utilisation de l’IA pour imager des œuvres protégées par le droit d’auteur est un usage loyal ou non, me dit-on. Si vous voulez voir la version de DALL-E de “Batman mangeant un sandwich”, envoyez-moi un message.)

Je soupçonne que nous verrons également des applications nuisibles de cet outil. Bien que je fasse confiance à OpenAI pour appliquer des politiques strictes contre l’utilisation abusive de DALL-E, des outils similaires émergeront certainement et adopteront une approche plus large de la modération de contenu. Les gens créent déjà des deepfakes malveillants, souvent pornographiques, pour harceler leurs ex en utilisant les outils rudimentaires disponibles aujourd’hui ; cette technologie ne fera que s’améliorer.

Souvent, lorsqu’une nouvelle technologie arrive, nous nous concentrons sur ses utilisations les plus heureuses et les plus capricieuses, pour ignorer comment elle pourrait être mal utilisée à l’avenir. Aussi enthousiaste que j’étais à l’idée d’utiliser DALL-E, je suis également très enthousiaste quant à ce que des outils similaires peuvent faire entre les mains d’entreprises moins scrupuleuses.

Il convient également de réfléchir à ce que même les utilisations positives de cette technologie peuvent faire à grande échelle. Lorsque la plupart des images que nous trouvons en ligne sont créées par l’IA, qu’est-ce que cela fait à notre sens de la réalité ? Comment saurons-nous que ce que nous voyons est réel ?

Pour l’instant, le DALL-E ressemble à une percée dans l’histoire de la technologie grand public. La question est de savoir si dans quelques années nous considérerons cela comme le début d’une révolution créative, ou quelque chose de plus inquiétant. L’avenir est déjà là et il ajoute 1 000 utilisateurs par semaine. Le moment est venu de discuter de ses implications, avant que le reste du monde ne mette la main dessus.

Leave a Comment