Riffusion

Il y a près d’un an, les développeurs Seth Forsgren et Hayk Martiros ont lancé un projet de loisir appelé Riffusion qui pouvait générer de la musique en utilisant non pas l’audio mais images de l’audio. Cela semble contre-intuitif (sans jeu de mots), mais cela a fonctionné – mon collègue Devin Coldewey a eu un aperçu ici.

Bien que leur approche ait ses limites, Riffusion a attiré beaucoup d’attention à Forsgren et Martiros – ce qui n’est pas vraiment surprenant étant donné la curiosité (et la controverse) entourant la technologie musicale générée par l’IA. Des millions de personnes ont essayé Riffusion, selon Forsgren, et la plate-forme a été citée dans des articles de recherche publiés par des sociétés de grande technologie, notamment Meta, Google et ByteDance, société mère de TikTok.

Il semblerait qu’une partie de l’attention soit également venue des investisseurs.

Cette année, Forsgren et Martiros ont décidé de commercialiser Riffusion, qui est désormais conseillé par le duo musical The Chainsmokers et a clôturé un tour de table de 4 millions de dollars dirigé par Greycroft avec la participation de South Park Commons et Sky9.

Riffusion lance également une nouvelle application gratuite – une version améliorée de Riffusion de l’année dernière – qui permet aux utilisateurs de décrire des paroles et un style musical pour générer des « riffs » pouvant être partagés publiquement ou avec des amis.

« [The new Riffusion] permet à chacun de créer de la musique originale via de courts clips audio partageables », a déclaré Forsgren à TechCrunch dans une interview par courrier électronique. « Les utilisateurs décrivent simplement les paroles et un style musical, et notre modèle génère des riffs complets avec du chant et des illustrations personnalisées en quelques secondes. Qu’il s’agisse de musiciens inspirants ou de vœux de bonjour à votre mère, les riffs sont une nouvelle forme d’expression et de communication qui réduit considérablement les barrières à la création musicale.

Crédits images : Riffusion

Matiros et Forsgren se sont rencontrés à Princeton alors qu’ils étaient étudiants et ont passé la dernière décennie à jouer de la musique ensemble dans un groupe amateur. Forsgren a précédemment fondé deux sociétés technologiques financées par du capital-risque, Hardline et Yodel, tandis que Matiros a rejoint la start-up de drones Skydio en tant que l’un de ses premiers employés.

Forsgren dit que lui et Matiros ont été inspirés pour faire évoluer Riffusion par le potentiel qu’ils voient dans les outils d’IA générative pour connecter les gens grâce à la créativité.

« La pandémie nous a donné beaucoup plus de temps à la maison et m’a amené à apprendre à jouer du piano », a déclaré Forsgren. « La musique a un grand pouvoir pour nous connecter en période d’isolement. L’IA générative est un espace nouveau et en évolution rapide, et Riffusion vise à exploiter cette technologie pour proposer un nouvel instrument amusant, qui permet à chacun de créer activement de la musique tout au long de sa vie.

Le Riffusion amélioré est alimenté par un modèle audio que l’équipe Riffusion – composée de six personnes, dont Forsgren et Matiros – a formé à partir de zéro. Comme le modèle derrière le Riffusion original, le nouveau modèle est affiné sur des spectrogrammes ou des représentations visuelles de l’audio qui montrent l’amplitude des différentes fréquences au fil du temps.

Forsgren et Martiros ont réalisé des spectrogrammes de musique et ont marqué les images résultantes avec les termes pertinents, comme « guitare blues », « piano jazz », etc. En nourrissant le modèle, cette collection lui a « appris » à quoi « ressemblent » certains sons et comment il pourrait les recréer ou les combiner à partir d’une invite textuelle (par exemple « rythme lo-fi pour les vacances », « mambo mais du Kenya », « une chanson de blues folk du delta du Mississippi », etc.).

« Les utilisateurs décrivent les qualités musicales à travers le langage naturel ou même en enregistrant leur propre voix, comme méthode pour inciter le modèle à générer des sorties uniques », a expliqué Forsgren. « Nous pensons que le produit permettra aux producteurs de musique et aux ingénieurs du son d’explorer de nouvelles idées et de s’inspirer d’une manière totalement nouvelle. »

Voici un extrait réalisé en utilisant la capacité de Riffusion à enregistrer une voix avec l’invite « hymne punk rock, chant masculin, guitare et batterie énergiques » :

Mais qu’en est-il, pourriez-vous vous demander, du potentiel de violation du droit d’auteur ?

De plus en plus, les morceaux faits maison qui utilisent l’IA générative pour évoquer des sons familiers qui peuvent être considérés comme authentiques, ou du moins assez proches, deviennent viraux. Le mois dernier, une communauté Discord dédiée à l’audio génératif a publié un album entier utilisant une copie générée par l’IA de la voix de Travis Scott, s’attirant ainsi la colère du label qui le représente.

Les labels de musique n’ont pas tardé à signaler les pistes générées par l’IA à des partenaires de streaming comme Spotify et SoundCloud, invoquant des problèmes de propriété intellectuelle – et ils ont généralement été victorieux. Mais on ne sait toujours pas clairement si la musique « deepfake » viole les droits d’auteur des artistes, des labels et des autres titulaires de droits.

Forsgren n’a pas tardé à remarquer que le nouveau Riffusion amélioré n’était pas formé pour reconnaître les noms ou les chansons d’artistes célèbres – et, dit-il, ne pouvait pas les reproduire.

« Le produit n’est pas conçu pour produire des deepfakes et ne reconnaît pas les noms d’artistes célèbres dans ses invites », a-t-il déclaré. « Au lieu de cela, il permet aux utilisateurs de créer des messages personnels et des accroches accrocheuses à l’aide de l’application. Il n’est pas rare qu’un riff que vous créez reste coincé dans votre tête et que vous vous retrouviez à le chanter toute la journée.

Riffusion

Crédits images : Riffusion

Il n’existe pas encore de stratégie de monétisation claire. Pour l’instant, Forsgren et Martiros affirment qu’ils se concentrent sur la croissance de l’équipe de Riffusion et sur le développement de nouveaux produits complémentaires d’IA générative.

Mais Forsgren a également laissé entendre qu’il travaillerait plus étroitement avec des artistes comme The Chainsmokers pour voir comment la technologie pourrait être utilisée dans leurs processus créatifs.

« La musique générative n’en est qu’à ses débuts. Des modèles tels que MusicLM de Google, MusicGen de Facebook et Stable Audio de Stability sont des outils passionnants dans ce domaine », a déclaré Forsgren. « Mais Riffusion se démarque comme l’un des premiers à permettre aux utilisateurs de générer les paroles de leur musique via un site web ludique et accessible. »

A lire également