Diffusion stable

Stability AI, la startup finançant une gamme d’expériences d’IA générative, a publié une nouvelle version de Stable Diffusion, le système d’IA texte-image qui a été parmi les premiers à rivaliser avec le DALL-E 2 d’OpenAI.

Appelé Stable Diffusion XL, ou SDXL, le nouveau système – qui est disponible en version bêta via DreamStudio, l’outil d’art génératif de Stability AI – améliore l’original de manière essentielle. Tom Mason, CTO de Stability AI, affirme qu’il apporte une « richesse » à la génération d’images qui manquait à l’ancien modèle (Stable Diffusion 2.1), avec des améliorations plus notables dans des applications telles que la conception graphique et l’architecture.

« Nous sommes ravis d’annoncer la dernière itération de notre série de solutions d’image à diffusion stable », a-t-il déclaré dans un communiqué. « [It’s] transformatrice dans plusieurs industries… avec des résultats sous nos yeux.

Mis à part l’hyperbole, SDXL semble en effet à égalité – et peut-être même mieux que – la dernière version du modèle de MIdJourney, le modèle responsable de « Balenciaga Pope » (entre autres mèmes).

Alors que la version précédente de Stable Diffusion et de nombreux autres systèmes de conversion de texte en image ont du mal à recréer certaines anatomies, comme les mains, SDXL n’a pas ce problème. Les mains ne sont pas toujours… eh bien, réalistes. Mais ils ont des kilomètres d’avance sur le carburant cauchemardesque que le prédécesseur de SDXL produirait souvent.

SDXL gère mieux les mains, mais évidemment pas parfaitement.

Diffusion stable

Stable Diffusion 2.1 est clairement pire entre les mains, haut la main. (Je me verrai dehors.)

SDXL est également censé être meilleur pour générer du texte, une tâche qui a historiquement lancé des modèles d’art génératifs d’IA pour une boucle. Mais il reste encore du chemin à parcourir si mes brefs tests sont une indication,

Stable Diffusion bord de route

En haut, résultats de Stable Diffusion 2.1. En bas, les sorties de SDXL.

Dans un communiqué de presse, Stability AI affirme également que SDXL offre une « composition d’image et une génération de visage améliorées » et ne nécessite pas d’invites longues et détaillées pour créer des « images descriptives », contrairement à son prédécesseur. De plus, SDXL a des fonctionnalités qui vont au-delà de la simple invite de texte à image, y compris l’invite d’image à image (saisie d’une image pour obtenir des variations de cette image), l’inpainting (reconstruction des parties manquantes d’une image) et l’outpainting (construction d’un extension d’une image existante).

En guise de joker, j’ai essayé de recréer le mème Balenciaga Pope avec une invite aussi courte que possible : « Balenciaga Pope ». La différence dans les résultats était plus marquée que ce à quoi je m’attendais, je dois dire, avec SDXL posant des modèles de piste dans ce qui pourrait passer pour une tenue de créateur par rapport aux vêtements d’apparence purement religieuse que l’ancienne Stable Diffusion évoquait.

Une fois sorti de la version bêta, SDXL sera open source, selon Stability AI, tout comme les précédentes itérations de Stable Diffusion. En plus de DreamStudio, SDXL est actuellement disponible via l’API de Stability, également en accès anticipé.

Alors que la technologie de l’art de l’IA générative progresse, des outils comme SDXL ont mis les entreprises dans l’eau chaude sur la façon dont ils ont été construits et commercialisés. Stability AI est dans le collimateur d’un cas légal qui allègue que la société a enfreint les droits de millions d’artistes en développant ses outils à l’aide d’images grattées sur le Web et protégées par le droit d’auteur. Action Le fournisseur d’images Getty Images a également poursuivi Stability AI en justice pour avoir utilisé des images de son site sans autorisation pour créer la Stable Diffusion originale.

La version open source de Stable Diffusion a également fait l’objet de controverses, en raison de ses restrictions d’utilisation relativement légères. Certaines communautés sur le Web l’ont exploité pour générer des deepfakes pronographiques de célébrités et des représentations graphiques de la violence. À ce jour, au moins un législateur américain a appelé à une réglementation pour traiter la publication de modèles comme Stable Diffusion qui « ne modèrent pas suffisamment le contenu ».

En réponse aux poursuites, Stability AI s’est récemment engagé à respecter les demandes des artistes de retirer leur art de l’ensemble de données de formation de Stable Diffusion, mais cela ne s’appliquait pas à SDXL – seuls les modèles Stable Diffusion de nouvelle génération, nommés « Stable Diffusion 3.0. » Les artistes ont supprimé plus de 78 millions d’œuvres d’art de l’ensemble de données de formation à ce jour, selon Spawning, l’organisation à la tête de l’effort de désinscription.

Que les défis juridiques soient damnés, Stability AI est sous pression pour monétiser ses efforts tentaculaires en matière d’IA, qui couvrent toute la gamme de l’art et de l’animation à l’audio biomédical et génératif. Le PDG de Stability AI, Emad Mostaque, a fait allusion à des projets d’introduction en bourse, mais Semafor a récemment rapporté que Stability AI – qui a levé plus de 100 millions de dollars en capital-risque en octobre dernier pour une valorisation rapportée de plus d’un milliard de dollars – « brûle de l’argent et a été lent à Générer des revenus, »

A lire également