Source de frai.Plus

Jordan Meyer et Mathew Dryhurst ont fondé Spawning AI pour créer des outils permettant aux artistes d'exercer davantage de contrôle sur la manière dont leurs œuvres sont utilisées en ligne. Leur dernier projet, appelé Source.Plus, vise à organiser des médias « non contrefaits » pour la formation des modèles d'IA.

La première initiative du projet Source.Plus est un ensemble de données contenant près de 40 millions d'images du domaine public et d'images sous licence Creative Commons CC0, qui permet aux créateurs de renoncer à presque tout intérêt légal dans leurs œuvres. Meyer affirme que, malgré le fait qu'il soit considérablement plus petit que certains autres ensembles de données d'entraînement génératif de l'IA, l'ensemble de données de Source.Plus est déjà suffisamment « de haute qualité » pour entraîner un modèle de génération d'images de pointe. .

« Avec Source.Plus, nous construisons une plateforme universelle « opt-in » », a déclaré Meyer. « Notre objectif est de permettre aux titulaires de droits de proposer facilement leurs médias pour une utilisation dans la formation à l'IA générative – selon leurs propres conditions – et aux développeurs d'intégrer facilement ces médias dans leurs flux de travail de formation. »

Gestion des droits

Le débat autour de l'éthique de la formation de modèles d'IA génératifs, en particulier des modèles générateurs d'art comme Stable Diffusion et DALL-E 3 d'OpenAI, se poursuit sans relâche – et a des implications énormes pour les artistes, même si la poussière finit par retomber.

Les modèles d'IA générative « apprennent » à produire leurs résultats (par exemple, de l'art photoréaliste) en s'entraînant sur une grande quantité de données pertinentes – des images, dans ce cas. Certains développeurs de ces modèles soutiennent que l'utilisation équitable leur donne le droit d'extraire des données de sources publiques, quel que soit le statut de droit d'auteur de ces données. D'autres ont tenté de suivre la ligne, en récompensant ou au moins en créditant les propriétaires de contenu pour leurs contributions aux ensembles de formation.

Meyer, PDG de Spawning, estime que personne n'a encore arrêté la meilleure approche.

« La formation en IA utilise souvent par défaut les données disponibles les plus simples, qui n'ont pas toujours été les plus justes ou les plus responsables », a-t-il déclaré à TechCrunch dans une interview. « Les artistes et les titulaires de droits ont peu de contrôle sur la manière dont leurs données sont utilisées pour la formation en IA, et les développeurs ne disposent pas d'alternatives de haute qualité permettant de respecter facilement les droits sur les données. »

Source.Plus, disponible en version bêta limitée, s'appuie sur les outils existants de Spawning pour la gestion de la provenance des œuvres d'art et des droits d'utilisation.

En 2022, Spawning a créé HaveIBeenTrained, un site Web qui permet aux créateurs de se désinscrire des ensembles de données de formation utilisés par les fournisseurs partenaires de Spawning, notamment Hugging Face et Stability AI. Après avoir levé 3 millions de dollars en capital-risque auprès d'investisseurs, dont True Ventures et Seed Club Ventures, Spawning a déployé ai.text, un moyen permettant aux sites Web de « définir des autorisations » pour l'IA, et un système – Kudurru – pour se défendre contre les robots de récupération de données. .

Source.Plus est le premier effort de Spawning pour créer une médiathèque et gérer cette bibliothèque en interne. L'ensemble de données d'images initial, PD/CC0, peut être utilisé à des fins commerciales ou de recherche, explique Meyer.

La bibliothèque Source.Plus.
Crédits images : Frai

« Source.Plus n'est pas seulement un référentiel de données de formation ; c'est une plateforme d'enrichissement avec des outils pour soutenir le pipeline de formation », a-t-il poursuivi. « Notre objectif est de disposer d'un ensemble de données CC0 de haute qualité et non contrefait, capable de prendre en charge un modèle d'IA de base puissant, disponible dans l'année. »

Des organisations telles que Getty Images, Adobe, Shutterstock et la startup d'IA Bria prétendent n'utiliser que des données équitables pour la formation des modèles. (Getty va jusqu'à qualifier ses produits d'IA générative de « commercialement sûrs ».) Mais Meyer affirme que Spawning vise à placer une « barre plus haute » pour ce que signifie une source équitable de données.

Source.Plus filtre les images pour les « désinscriptions » et autres préférences de formation des artistes, affichant des informations de provenance sur la façon dont et d'où les images proviennent. Cela exclut également les images qui ne sont pas sous licence CC0, y compris celles avec une licence Creative Commons BY 1.0, qui nécessitent une attribution. Et Spawning indique qu'il surveille les contestations en matière de droits d'auteur provenant de sources où quelqu'un d'autre que les créateurs est chargé d'indiquer le statut de droit d'auteur d'une œuvre, comme Wikimedia Commons.

« Nous avons méticuleusement validé les licences déclarées pour les images que nous avons collectées, et toutes les licences douteuses ont été exclues – une étape que de nombreux ensembles de données « équitables » ne franchissent pas », a déclaré Meyer.

Historiquement, les images problématiques – y compris les images personnelles violentes, pornographiques et sensibles – ont tourmenté les ensembles de données de formation à la fois ouverts et commerciaux.

Les responsables de l'ensemble de données LAION ont été contraints de mettre hors ligne une bibliothèque après que des rapports ont révélé des dossiers médicaux et des descriptions d'abus sexuels sur des enfants ; Cette semaine encore, une étude de Human Rights Watch a révélé que l'un des référentiels de LAION incluait les visages d'enfants brésiliens sans le consentement ou la connaissance de ces enfants. Ailleurs, la bibliothèque multimédia d'Adobe, Adobe Stock, que la société utilise pour former ses modèles d'IA génératifs, y compris le modèle Firefly Image générateur d'art, s'est avérée contenir des images générées par l'IA de concurrents tels que Midjourney.

Source de frai.Plus
Oeuvre dans la galerie Source.Plus.
Crédits images : Frai

La solution de Spawning consiste en des modèles de classificateur formés pour détecter la nudité, le sang, les informations personnellement identifiables et d'autres éléments indésirables dans les images. Reconnaissant qu'aucun classificateur n'est parfait, Spawning prévoit de permettre aux utilisateurs de filtrer de manière « flexible » l'ensemble de données Source.Plus en ajustant les seuils de détection des classificateurs, explique Meyer.

« Nous employons des modérateurs pour vérifier la propriété des données », a ajouté Meyer. « Nous avons également intégré des fonctionnalités de remédiation, grâce auxquelles les utilisateurs peuvent signaler les œuvres incriminées ou potentiellement contrefaites, et la trace de la façon dont ces données ont été consommées peut être auditée. »

Compensation

La plupart des programmes visant à rémunérer les créateurs pour leurs contributions aux données de formation génératives de l’IA ne se sont pas exceptionnellement bien déroulés. Certains programmes s’appuient sur des mesures opaques pour calculer les paiements des créateurs, tandis que d’autres versent des montants que les artistes considèrent comme déraisonnablement bas.

Prenez Shutterstock, par exemple. La médiathèque, qui a conclu des accords avec des fournisseurs d’IA s’élevant à plusieurs dizaines de millions de dollars, verse dans un « fonds des contributeurs » les œuvres d’art qu’elle utilise pour former ses modèles d’IA génératives ou les licences accordées à des développeurs tiers. Mais Shutterstock n'est pas transparent sur ce que les artistes peuvent s'attendre à gagner, et ne permet pas non plus aux artistes de fixer leurs propres prix et conditions ; une estimation tierce fixe les revenus à 15 $ pour 2 000 images, ce qui n'est pas exactement un montant bouleversant.

Une fois que Source.Plus sortira de la version bêta plus tard cette année et s'étendra aux ensembles de données au-delà de PD/CC0, il adoptera une approche différente de celle des autres plates-formes, permettant aux artistes et aux titulaires de droits de fixer leurs propres prix par téléchargement. La reproduction facturera des frais, mais seulement un taux forfaitaire – un « dixième de centime », explique Meyer.

Les clients peuvent également choisir de payer à Spawning 10 $ par mois – plus les frais de téléchargement habituels par image – pour Source.Plus Curation, un plan d'abonnement qui leur permet de gérer des collections d'images en privé, de télécharger l'ensemble de données jusqu'à 10 000 fois par mois et de gagner accès anticipé à de nouvelles fonctionnalités, telles que les collections « premium » et l’enrichissement des données.

Source de frai.Plus
Crédits images : Frai

« Nous fournirons des conseils et des recommandations basés sur les normes actuelles de l'industrie et les mesures internes, mais en fin de compte, les contributeurs à l'ensemble de données détermineront ce qui en vaut la peine », a déclaré Meyer. « Nous avons choisi ce modèle de tarification intentionnellement pour donner aux artistes la part du lion des revenus et leur permettre de fixer leurs propres conditions de participation. Nous pensons que cette répartition des revenus est nettement plus favorable aux artistes que la répartition des revenus en pourcentage, plus courante, et qu’elle entraînera des paiements plus élevés et une plus grande transparence.

Si Source.Plus obtient le succès espéré par Spawning, Spawning a l'intention de l'étendre au-delà des images à d'autres types de médias, y compris l'audio et la vidéo. Spawning est en discussion avec des entreprises anonymes pour rendre leurs données disponibles sur Source.Plus. Et, dit Meyer, Spawning pourrait créer ses propres modèles d'IA génératifs en utilisant les données des ensembles de données Source.Plus.

« Nous espérons que les titulaires de droits qui souhaitent participer à l'économie de l'IA générative auront la possibilité de le faire et de recevoir une compensation équitable », a déclaré Meyer. « Nous espérons également que les artistes et les développeurs qui se sont sentis en conflit quant à leur engagement dans l'IA auront l'opportunité de le faire d'une manière respectueuse envers les autres créatifs. »

Certes, Spawning a une niche à se tailler ici. Source.Plus semble être l’une des tentatives les plus prometteuses visant à impliquer les artistes dans le processus de développement de l’IA générative – et à leur permettre de partager les bénéfices de leur travail.

Comme ma collègue Amanda Silberling l'a récemment écrit, l'émergence d'applications comme la communauté d'hébergement artistique Cara, qui a connu une forte augmentation de son utilisation après que Meta a annoncé qu'elle pourrait entraîner son IA générative sur le contenu d'Instagram, y compris le contenu d'artistes, montre que la communauté créative a atteint un point de rupture. Ils recherchent désespérément des alternatives aux entreprises et aux plateformes qu'ils perçoivent comme des voleurs – et Source.Plus pourrait bien être une solution viable.

Mais si Spawning agit toujours dans le meilleur intérêt des artistes (un grand si, étant donné que Spawning est une entreprise soutenue par du capital-risque), je me demande si Source.Plus peut évoluer avec autant de succès que l'envisage Meyer. Si les réseaux sociaux nous ont appris quelque chose, c'est que la modération – en particulier de millions de contenus générés par les utilisateurs – est un problème insoluble.

Nous le saurons bien assez tôt.

A lire également