Diffusion vidéo stable

Des startups d’IA qui ne sont pas Il semblerait qu’OpenAI se déconnecte cette semaine – s’en tenant à ses feuilles de route de produits même si la couverture du chaos chez OpenAI domine les ondes.

Voir : Stability AI, qui a annoncé cet après-midi Stable Video Diffusion, un modèle d’IA qui génère des vidéos en animant des images existantes. Basé sur le modèle texte-image Stable Diffusion existant de Stability, Stable Video Diffusion est l’un des rares modèles de génération vidéo disponibles en open source – ou dans le commerce, d’ailleurs.

Mais pas à tout le monde.

Stable Video Diffusion est actuellement dans ce que Stability décrit comme un « aperçu de recherche ». Ceux qui souhaitent exécuter le modèle doivent accepter certaines conditions d’utilisation, qui décrivent les applications prévues de Stable Video Diffusion (par exemple « outils éducatifs ou créatifs », « conception et autres processus artistiques », etc.) et celles non prévues (« outils éducatifs ou créatifs », « conception et autres processus artistiques », etc.) représentations factuelles ou vraies de personnes ou d’événements »).

Étant donné le déroulement historique d’autres avant-premières de recherches sur l’IA – y compris celles de Stability –, cet auteur ne serait pas surpris de voir le modèle commencer à circuler sur le dark web en peu de temps. Si tel est le cas, je m’inquiéterais de la manière dont Stable Video pourrait être abusé, étant donné qu’il ne semble pas avoir de filtre de contenu intégré. Lorsque Stable Diffusion est sorti, il n’a pas fallu longtemps avant que des acteurs aux intentions douteuses l’utilisent pour créer du porno deepfake non consensuel – et pire encore.

Mais je m’éloigne du sujet.

La diffusion vidéo stable se présente en fait sous la forme de deux modèles : SVD et SVD-XT. Le premier, SVD, transforme les images fixes en vidéos 576×1024 en 14 images. SVD-XT utilise la même architecture, mais augmente le nombre d’images à 24. Les deux peuvent générer des vidéos entre trois et 30 images par seconde.

Selon un livre blanc publié parallèlement à Stable Video Diffusion, SVD et SVD-XT ont été initialement formés sur un ensemble de données de millions de vidéos, puis « affinés » sur un ensemble beaucoup plus restreint de centaines de milliers à environ un million de clips. La provenance de ces vidéos n’est pas immédiatement claire – le document laisse entendre que beaucoup provenaient d’ensembles de données de recherche publique – il est donc impossible de dire si certaines étaient protégées par le droit d’auteur. Si tel était le cas, cela pourrait exposer les utilisateurs de Stability and Stable Video Diffusion à des défis juridiques et éthiques concernant les droits d’utilisation. Le temps nous le dira.

Crédits images : IA de stabilité

Quelle que soit la source des données d’entraînement, les modèles – SVD et SVD-XT – génèrent des clips de quatre secondes d’assez haute qualité. Selon l’estimation de cet auteur, les échantillons triés sur le volet sur le blog de Stability pourraient aller de pair avec les résultats du récent modèle de génération vidéo de Meta ainsi qu’avec les exemples produits par l’IA que nous avons vus chez Google et les startups d’IA Runway et Pika Labs.

Mais la diffusion vidéo stable a des limites. Stability est transparent à ce sujet, écrivant sur les pages Hugging Face des modèles – les pages à partir desquelles les chercheurs peuvent postuler pour accéder à Stable Video Diffusion – que les modèles ne peuvent pas générer de vidéos sans mouvement ou sans panoramique de caméra lent, être contrôlés par du texte, restituer du texte ( du moins pas lisible) ou générer systématiquement des visages et des personnes « correctement ».

Pourtant, même si ce n’est qu’un début, Stability note que les modèles sont assez extensibles et peuvent être adaptés à des cas d’utilisation tels que la génération de vues d’objets à 360 degrés.

Alors, vers quoi pourrait évoluer la diffusion vidéo stable ? Eh bien, Stability dit qu’il prévoit « une variété » de modèles qui « s’appuient sur et étendent » SVD et SVD-XT ainsi qu’un outil « texte en vidéo » qui apportera des invites de texte aux modèles sur le Web. L’objectif ultime semble être la commercialisation – Stability note à juste titre que la diffusion vidéo stable a des applications potentielles dans « la publicité, l’éducation, le divertissement et au-delà ».

Certes, Stability vise un succès alors que les investisseurs dans la startup augmentent la pression.

En avril, Semafor a rapporté que Stability AI brûlait de l’argent, ce qui a déclenché une chasse aux dirigeants pour augmenter ses ventes. Selon Forbes, l’entreprise a retardé à plusieurs reprises ou n’a pas payé les salaires et les charges sociales, ce qui a conduit AWS – que Stability utilise pour calculer ses modèles – à menacer de révoquer l’accès de Stability à ses instances GPU.

Diffusion vidéo stable

Crédits images : IA de stabilité

Stability AI a récemment levé 25 millions de dollars via une obligation convertible (c’est-à-dire une dette qui se convertit en capitaux propres), portant le total levé à plus de 125 millions de dollars. Mais il n’a pas clôturé de nouveaux financements à une valorisation plus élevée ; la startup était évaluée pour la dernière fois à 1 milliard de dollars. La stabilité devrait quadrupler au cours des prochains mois, malgré des revenus obstinément faibles et un taux de consommation élevé.

Stability a récemment subi un nouveau coup dur avec le départ d’Ed Newton-Rex, qui était vice-président de l’audio dans la startup depuis un peu plus d’un an et a joué un rôle central dans le lancement de l’outil de génération de musique de Stability, Stable Audio. Dans une lettre publique, Newton-Rex a déclaré qu’il avait quitté Stability en raison d’un désaccord sur le droit d’auteur et sur la manière dont les données protégées par le droit d’auteur devraient – ​​et ne devraient pas – être utilisées pour former des modèles d’IA.

A lire également