La large disponibilité d’outils permettant de créer une IA générative a conduit à une explosion cambrienne de startups dans le domaine. L'abondance de capitaux n'a pas non plus fait de mal, pas plus que la baisse du coût de l'infrastructure technique requise.
En fait, l’une des applications les plus flashy de l’IA générative, la vidéo générative, risque de devenir sursaturée. Des laboratoires tels que Genmo, Haiper et Rhymes AI publient des modèles à un rythme rapide et, dans certains cas, peu de choses les distinguent de l'état de l'art précédent.
Naeem Talukdar pense que la confiance – et non pas nécessairement les capacités d'un modèle – est ce qui distinguera certaines entreprises de vidéo générative des autres. C'est pourquoi il fonde Moonvalley, une startup basée à Los Angeles qui développe des outils vidéo génératifs apparemment plus « transparents ».
Talukdar a dirigé la croissance des produits chez Zapier avant de fonder Draft, une société soutenue par Y Combinator, qui hébergeait un marché pour le contenu d'IA d'entreprise. Il a recruté Mateusz Malinowski et Mik Binkowski pour lancer Moonvalley, tous deux anciens scientifiques de DeepMind, où ils ont étudié les techniques de génération vidéo.
« Nous partagions la conviction que la génération vidéo allait transformer les médias et le divertissement, mais les startups que nous avons vues opérer dans ce domaine n'avaient pas les attributs nécessaires pour réussir », a déclaré Talukdar à TechCrunch. « Les entreprises existantes étaient profondément hostiles aux artistes, aux créateurs et à l’industrie en général. »
Selon Talukdar, la plupart des sociétés d'IA générative entraînent des modèles sur des données publiques, dont certaines sont invariablement protégées par le droit d'auteur. Ces entreprises soutiennent que la doctrine de l’usage équitable protège cette pratique. Par exemple, OpenAI a insisté sur le fait qu’il ne pouvait pas former correctement des modèles sans matériel protégé par le droit d’auteur, et Suno a soutenu qu’une formation aveugle n’est pas différente d’un « enfant écrivant ses propres chansons rock après avoir écouté le genre ».
Mais cela n’a pas empêché les titulaires de droits de déposer des plaintes ou de déposer des cessations et des abstentions.
Les vendeurs sont devenus assez effrontés alors même que les poursuites judiciaires à leur encontre s’accumulent. Au début de cette année, Mira Murati, ancienne directrice technique d'OpenAI, n'a pas nié catégoriquement que le modèle vidéo d'OpenAI, Sora, avait été formé sur des clips YouTube, ce qui semble être une violation de la politique d'utilisation de YouTube. Ailleurs, un rapport de 404 Media suggère que Runway, une startup de vidéo générative, a récupéré des séquences YouTube de chaînes appartenant à Disney et à des créateurs comme MKBHD sans autorisation.
La startup canadienne d'IA Viggle admet carrément qu'elle utilise des vidéos YouTube pour alimenter ses modèles vidéo. Et comme la plupart de ses concurrents, il n'offre aucun recours aux créateurs dont les œuvres auraient pu être entraînées dans sa formation.
« Les modèles génératifs doivent respecter les droits d'auteur, les marques déposées et les droits de ressemblance », a déclaré Talukdar. « C'est pourquoi nous travaillons en étroite collaboration avec des créateurs sur nos modèles. »
Moonvalley, qui ne dispose pas encore d'un modèle vidéo entièrement formé, affirme être l'une des rares entreprises à utiliser exclusivement des données sous licence provenant de propriétaires de contenu qui ont « opté ». Pour couvrir ses bases, Moonvalley entend permettre aux créateurs de demander que leur contenu soit supprimé de ses modèles, permettre aux clients de supprimer leurs données à tout moment et proposer une politique d'indemnisation pour protéger les utilisateurs contre les contestations en matière de droits d'auteur.
L'approche est parallèle à celle d'Adobe, qui forme ses modèles vidéo Firefly sur du contenu sous licence de sa plateforme Adobe Stock. Talukdar ne dirait pas combien Moonvalley paie les contributeurs pour les clips, mais cela pourrait être beaucoup. Bloomberg a rapporté qu'Adobe proposait environ 120 $ pour 40 à 45 minutes de vidéo.
Pour être clair, Moonvalley ne se procure pas de contenu lui-même. Il travaille avec des partenaires anonymes qui gèrent les accords de licence et regroupent les vidéos dans des ensembles de données achetés par Moonvalley.
Ces partenaires – appelés « courtiers en données » – sont aujourd’hui très demandés, grâce au boom de l’IA générative. Le marché des données de formation à l’IA devrait passer d’environ 2,5 milliards de dollars aujourd’hui à près de 30 milliards de dollars d’ici une décennie.
« Nous accordons des licences pour des données de haute qualité provenant de sources multiples qui travaillent directement avec les créateurs et les rémunérons bien pour l'utilisation de leur contenu », a ajouté Talukdar. «Nous veillons à utiliser un ensemble de données diversifiées et de haute qualité.»
Contrairement à certains modèles vidéo « non filtrés » qui insèrent facilement l'image d'une personne dans les clips, Moonvalley s'engage également à construire des garde-fous autour de ses outils créatifs. Comme Sora d'OpenAI, les modèles de Moonvalley bloqueront certains contenus, comme les phrases NSFW, et ne permettront pas aux gens de les inciter à générer des vidéos de personnes ou de célébrités spécifiques.
Bien sûr, aucun filtre n'est parfait, mais Talukdar dit que cette « équipe rouge » sera un élément essentiel de la stratégie de sortie de Moonvalley.
« Alors que la relation entre les médias et l’IA continue d’évoluer rapidement, et non sans scepticisme, Moonvalley vise à s’imposer comme le partenaire le plus fiable des organisations médiatiques », a-t-il déclaré.
Mais Moonvalley peut-il vraiment rivaliser ?
Comme mentionné précédemment, Google, Meta et d’innombrables autres se lancent dans la vidéo générative – avec divers degrés de considération éthique. Les géants de la technologie modifient leurs conditions d'utilisation pour bénéficier d'un avantage en matière de données : Google entraîne son modèle vidéo Veo sur les vidéos YouTube, tandis que Meta entraîne ses modèles sur les contenus Instagram et Facebook.
Moonvalley espère séduire les marques et les maisons de création, mais certains vendeurs ont déjà fait des progrès significatifs dans ce domaine. Runway a récemment signé un accord avec Lionsgate pour former un modèle personnalisé sur le catalogue de films du studio ; Stability AI a recruté le directeur d'« Avatar » James Cameron au sein de son conseil d'administration ; et OpenAI s'est associé à des marques et à des réalisateurs indépendants pour mettre en valeur le potentiel de Sora.
Ensuite, il y a Adobe, qui s'attaque au marché cible de Moonvalley : les artistes et les créateurs de contenu qui veulent des outils vidéo génératifs « plus sûrs » (du moins d'un point de vue juridique).
Le défi de Moonvalley est triple. Il devra convaincre les clients que ses outils sont compétitifs par rapport à ce qui existe déjà. Il devra construire suffisamment de piste pour pouvoir former et servir des modèles de suivi. Et il devra s'assurer une base de clients fidèles qui ne passeront pas à un autre fournisseur à tout moment.
De nombreux artistes et créateurs se méfient naturellement de l’IA générative, car elle menace de bouleverser l’industrie du cinéma et de la télévision. Une étude de 2024 commandée par l'Animation Guild, un syndicat représentant les animateurs et dessinateurs d'Hollywood, estime que plus de 100 000 emplois dans le cinéma, la télévision et l'animation aux États-Unis seront perturbés par l'IA d'ici 2026.
« Notre objectif est de créer des outils pour aider les créateurs à créer un contenu toujours plus grandiose et immersif », a déclaré Talukdar lorsque je l'ai interrogé sur le risque que les créatifs perdent leur emploi à cause de l'IA générative.
Sur le plan des pistes, Moonvalley a fait quelques progrès : la société a récemment levé 70 millions de dollars lors d'un cycle de financement de démarrage codirigé par General Catalyst et Khosla Ventures, avec la participation de Bessemer Ventures. Cela financera la R&D et l'embauche de Moonvalley.
Actuellement, l'entreprise compte environ 30 employés qui travaillaient auparavant chez DeepMind, Meta, Microsoft et TikTok, explique Talukdar.
« Ce qui nous différencie des autres entreprises, c'est l'accent mis sur les produits », a-t-il ajouté. « Bien que le cœur de notre entreprise soit la formation de modèles génératifs de pointe, notre objectif est de créer des outils créatifs extrêmement performants pour transformer ces modèles en équipements puissants pour les créateurs professionnels, les studios et les marques. »
Talukdar dit que son plan est de sortir le premier modèle de Moonvalley plus tard cette année. La société devra se dépêcher si elle espère battre les prochaines versions de Black Forest Labs, Luma Labs, Midjourney et l'éléphant dans la pièce.