Un filigrane "inaudible" pourrait identifier les voix générées par l'IA

La facilité croissante avec laquelle n’importe qui peut créer un son convaincant dans la voix de quelqu’un d’autre inquiète beaucoup de gens, et à juste titre. La proposition de Resemble AI pour le filigranage de la parole générée peut ne pas résoudre le problème en un seul, mais c’est un pas dans la bonne direction.

La parole générée par l’IA est utilisée à toutes sortes de fins légitimes, des lecteurs d’écran au remplacement des acteurs vocaux (avec leur permission, bien sûr). Mais comme avec presque toutes les technologies, la génération de discours peut également être utilisée à des fins malveillantes, produisant de fausses citations de politiciens ou de célébrités. Il est hautement souhaitable de trouver un moyen de distinguer le vrai du faux qui ne repose pas sur un publiciste ou une écoute attentive.

Le filigrane est une technique par laquelle une image ou un son est imprimé avec un motif identifiable qui montre son origine. Nous avons tous vu des filigranes évidents comme un logo sur une image, mais ils ne sont pas tous aussi visibles.

Dans les images, un filigrane caché peut masquer le motif au niveau pixel par pixel, laissant l’image non modifiée pour les yeux humains mais identifiable pour un ordinateur. Idem pour l’audio : un son silencieux occasionnel encodant l’information peut ne pas être quelque chose qu’un auditeur occasionnel entendrait.

Le problème avec ces filigranes subtils est qu’ils ont tendance à être effacés même par des modifications mineures du support. Redimensionner l’image ? Voilà votre code au pixel près. Encoder l’audio pour le streaming ? Les tonalités secrètes sont compressées dès leur existence.

Resemble AI fait partie d’une nouvelle cohorte de startups d’IA générative visant à utiliser des modèles vocaux finement réglés pour produire des doublages, des livres audio et d’autres médias habituellement produits par des voix humaines ordinaires. Mais si de tels modèles, peut-être formés sur des heures d’audio fournies par des acteurs, devaient tomber entre des mains malveillantes, ces entreprises pourraient se retrouver au centre d’un désastre de relations publiques et peut-être d’une grave responsabilité. Il est donc tout à fait dans leur intérêt de trouver un moyen de rendre leurs enregistrements à la fois aussi réalistes que possible et aussi facilement vérifiables car générés par l’IA.

PerTh est le processus de filigrane proposé par Resemble à cette fin, une combinaison maladroite de « perceptif » et de « seuil ».

« Nous avons développé une couche de sécurité supplémentaire qui utilise des modèles d’apprentissage automatique pour à la fois intégrer des paquets de données dans le contenu vocal que nous générons et récupérer ces données ultérieurement », écrit la société dans un article de blog expliquant la technologie. «Parce que les données sont imperceptibles, tout en étant étroitement couplées aux informations vocales, elles sont à la fois difficiles à supprimer et fournissent un moyen de vérifier si un clip donné a été généré par Resemble. Il est important de noter que cette technique de « filigrane » tolère également diverses manipulations audio telles que l’accélération, le ralentissement, la conversion en formats compressés tels que MP3, etc.

Il s’appuie sur une bizarrerie de la façon dont les humains traitent l’audio, par laquelle les tonalités à haute audibilité « masquent » essentiellement les tonalités proches de moindre amplitude. Donc, si quelqu’un rit et que cela produit des pics aux fréquences de 5 000 Hz, 8 000 Hz et 9 200 Hz, vous pouvez glisser des tonalités structurées qui se produisent simultanément à quelques hertz, et elles seront plus ou moins imperceptibles pour les auditeurs. Mais si vous le faites correctement, ils seront également résistants au retrait car ils sont très proches d’une partie importante de l’audio.

Voici le schéma :

Diagramme montrant comment les tonalités inférieures sont « masquées » par les pics à proximité.

C’est intuitif, mais le défi consistait sans aucun doute à créer un modèle d’apprentissage automatique capable de localiser les sections de forme d’onde candidates et de produire automatiquement les tonalités audio appropriées, mais inaudibles, qui transportent les informations d’identification. Ensuite, il doit inverser ce processus tout en restant robuste aux manipulations sonores courantes comme celles mentionnées ci-dessus.

Voici deux exemples qu’ils ont fournis. Voyez si vous pouvez déterminer lequel est en filigrane. Survolez ici pour voir la réponse dans votre barre d’état.

Je ne peux pas faire la différence et même en inspectant les formes d’onde de très près, je n’ai pas pu trouver d’anomalies évidentes. Je ne suis pas assez à l’aise avec un analyseur de spectre ces jours-ci pour vraiment y entrer, mais je soupçonne que c’est là que vous pourriez voir quelque chose. En tout cas, si leur affirmation selon laquelle les données indiquant la génération par Resemble sont encodées de manière plus ou moins irréversible dans l’un de ces clips, je dirais que c’est un succès.

PerTh sera bientôt déployé auprès de tous les clients de Resemble, et pour être clair pour le moment, il ne peut que marquer et détecter le discours généré par l’entreprise. Mais s’ils l’ont fait, d’autres le feront probablement aussi – et il y a de fortes chances que ces moteurs soient bientôt inextricablement liés aux modèles de génération de parole eux-mêmes. Les acteurs malveillants trouveront toujours un moyen de contourner de telles choses, mais la mise en place de barrières devrait aider à freiner une partie de ce comportement.

L’audio est spécial de cette façon, cependant, et des astuces similaires ne fonctionneront pas pour le texte ou les images. Attendez-vous donc à rester un moment dans l’étrange vallée de ces domaines.

A lire également

Entrepreneunariat

Transformer les conversations difficiles en opportunités transformatrices pour les employés

ParL'équipe rédactionnelle 1 mai 20251 mai 2025

Des conversations difficiles viennent avec le territoire d'être un leader. Qu'il s'agisse de résoudre des problèmes de performance ou de donner des commentaires constructifs, ces moments peuvent être essentiels pour faire ou briser la carrière d'un employé et une organisation. Les dirigeants intentionnels et empathiques comprennent que les discussions utiles représentent une chance de faciliter…

Start-up

Il est temps de voter pour TC Early Stage Audience Choice

ParL'équipe rédactionnelle 30 janvier 202330 janvier 2023

Une vantardise pas si humble ici, alors préparez-vous. La programmation de TechCrunch Early Stage – le 20 avril à Boston, Massachusetts – va être décrochée proverbiale. Comment savons nous? Nous avons lu des centaines de candidatures de fondateurs expérimentés et d’experts de l’écosystème de startups désireux de participer à Audience Choice pour avoir une chance…

Start-up

Pacifico Biolabs sort de la furtivité avec un processus de fermentation pour des produits de la mer alternatifs

ParL'équipe rédactionnelle 16 février 2024

Dans sa quête visant à remplacer les fruits de mer traditionnels par des alternatives, Pacifico Biolabs, basé à Berlin, estime avoir une approche unique pour créer des structures musculaires entières par fermentation. Alors que la fermentation, le processus de croissance de cellules dans des bioréacteurs, est déjà utilisée pour fabriquer un certain nombre de protéines…

Start-up

Découvrez Budibase, un créateur d’applications Web open source low-code avec automatisations

ParL'équipe rédactionnelle 5 novembre 20225 novembre 2022

Bien qu’il existe des points de vue différents sur la mesure dans laquelle les outils de développement sans code et à faible code pourraient éventuellement supplanter les développeurs de logiciels humains, il est clair que tout logiciel qui prend en charge le « gros travail » technique a un impact énorme au sein des entreprises. en termes…

Start-up

Mecanizou, qui dispose désormais de 14,5 millions de dollars, prévoit d’étendre le marché des pièces automobiles à São Paulo

ParL'équipe rédactionnelle 21 mars 202321 mars 2023

Si vous êtes un bricoleur d’entretien automobile aux États-Unis, il est assez facile de trouver des pièces automobiles avec une simple recherche sur Internet ou dans la base de données d’un magasin de pièces automobiles. Cependant, au Brésil, l’expérience n’est pas la même. Mecanizou est là pour changer cela. La startup basée à São Paulo…

Entrepreneunariat

Stratégies de croissance numérique pour les petites et moyennes entreprises

ParL'équipe rédactionnelle 24 décembre 202424 décembre 2024

La croissance numérique peut sembler intimidante, en particulier pour les entreprises disposant de ressources limitées. Cependant, avec les bonnes stratégies et approches, les PME peuvent évoluer efficacement, améliorer leur visibilité et augmenter leurs revenus. S'associer à une agence de marketing numérique à Melbourne est un moyen efficace de faire passer votre entreprise au niveau supérieur….