Un filigrane "inaudible" pourrait identifier les voix générées par l'IA

La facilité croissante avec laquelle n’importe qui peut créer un son convaincant dans la voix de quelqu’un d’autre inquiète beaucoup de gens, et à juste titre. La proposition de Resemble AI pour le filigranage de la parole générée peut ne pas résoudre le problème en un seul, mais c’est un pas dans la bonne direction.

La parole générée par l’IA est utilisée à toutes sortes de fins légitimes, des lecteurs d’écran au remplacement des acteurs vocaux (avec leur permission, bien sûr). Mais comme avec presque toutes les technologies, la génération de discours peut également être utilisée à des fins malveillantes, produisant de fausses citations de politiciens ou de célébrités. Il est hautement souhaitable de trouver un moyen de distinguer le vrai du faux qui ne repose pas sur un publiciste ou une écoute attentive.

Le filigrane est une technique par laquelle une image ou un son est imprimé avec un motif identifiable qui montre son origine. Nous avons tous vu des filigranes évidents comme un logo sur une image, mais ils ne sont pas tous aussi visibles.

Dans les images, un filigrane caché peut masquer le motif au niveau pixel par pixel, laissant l’image non modifiée pour les yeux humains mais identifiable pour un ordinateur. Idem pour l’audio : un son silencieux occasionnel encodant l’information peut ne pas être quelque chose qu’un auditeur occasionnel entendrait.

Le problème avec ces filigranes subtils est qu’ils ont tendance à être effacés même par des modifications mineures du support. Redimensionner l’image ? Voilà votre code au pixel près. Encoder l’audio pour le streaming ? Les tonalités secrètes sont compressées dès leur existence.

Resemble AI fait partie d’une nouvelle cohorte de startups d’IA générative visant à utiliser des modèles vocaux finement réglés pour produire des doublages, des livres audio et d’autres médias habituellement produits par des voix humaines ordinaires. Mais si de tels modèles, peut-être formés sur des heures d’audio fournies par des acteurs, devaient tomber entre des mains malveillantes, ces entreprises pourraient se retrouver au centre d’un désastre de relations publiques et peut-être d’une grave responsabilité. Il est donc tout à fait dans leur intérêt de trouver un moyen de rendre leurs enregistrements à la fois aussi réalistes que possible et aussi facilement vérifiables car générés par l’IA.

PerTh est le processus de filigrane proposé par Resemble à cette fin, une combinaison maladroite de « perceptif » et de « seuil ».

« Nous avons développé une couche de sécurité supplémentaire qui utilise des modèles d’apprentissage automatique pour à la fois intégrer des paquets de données dans le contenu vocal que nous générons et récupérer ces données ultérieurement », écrit la société dans un article de blog expliquant la technologie. «Parce que les données sont imperceptibles, tout en étant étroitement couplées aux informations vocales, elles sont à la fois difficiles à supprimer et fournissent un moyen de vérifier si un clip donné a été généré par Resemble. Il est important de noter que cette technique de « filigrane » tolère également diverses manipulations audio telles que l’accélération, le ralentissement, la conversion en formats compressés tels que MP3, etc.

Il s’appuie sur une bizarrerie de la façon dont les humains traitent l’audio, par laquelle les tonalités à haute audibilité « masquent » essentiellement les tonalités proches de moindre amplitude. Donc, si quelqu’un rit et que cela produit des pics aux fréquences de 5 000 Hz, 8 000 Hz et 9 200 Hz, vous pouvez glisser des tonalités structurées qui se produisent simultanément à quelques hertz, et elles seront plus ou moins imperceptibles pour les auditeurs. Mais si vous le faites correctement, ils seront également résistants au retrait car ils sont très proches d’une partie importante de l’audio.

Voici le schéma :

Diagramme montrant comment les tonalités inférieures sont « masquées » par les pics à proximité.

C’est intuitif, mais le défi consistait sans aucun doute à créer un modèle d’apprentissage automatique capable de localiser les sections de forme d’onde candidates et de produire automatiquement les tonalités audio appropriées, mais inaudibles, qui transportent les informations d’identification. Ensuite, il doit inverser ce processus tout en restant robuste aux manipulations sonores courantes comme celles mentionnées ci-dessus.

Voici deux exemples qu’ils ont fournis. Voyez si vous pouvez déterminer lequel est en filigrane. Survolez ici pour voir la réponse dans votre barre d’état.


Je ne peux pas faire la différence et même en inspectant les formes d’onde de très près, je n’ai pas pu trouver d’anomalies évidentes. Je ne suis pas assez à l’aise avec un analyseur de spectre ces jours-ci pour vraiment y entrer, mais je soupçonne que c’est là que vous pourriez voir quelque chose. En tout cas, si leur affirmation selon laquelle les données indiquant la génération par Resemble sont encodées de manière plus ou moins irréversible dans l’un de ces clips, je dirais que c’est un succès.

PerTh sera bientôt déployé auprès de tous les clients de Resemble, et pour être clair pour le moment, il ne peut que marquer et détecter le discours généré par l’entreprise. Mais s’ils l’ont fait, d’autres le feront probablement aussi – et il y a de fortes chances que ces moteurs soient bientôt inextricablement liés aux modèles de génération de parole eux-mêmes. Les acteurs malveillants trouveront toujours un moyen de contourner de telles choses, mais la mise en place de barrières devrait aider à freiner une partie de ce comportement.

L’audio est spécial de cette façon, cependant, et des astuces similaires ne fonctionneront pas pour le texte ou les images. Attendez-vous donc à rester un moment dans l’étrange vallée de ces domaines.

A lire également