En 2016, Hammad Syed et Mahmoud Felfel, un ancien ingénieur WhatsApp, ont pensé qu'il serait intéressant de créer une extension Chrome de synthèse vocale pour les articles Medium. L'extension, qui pouvait lire à haute voix n'importe quelle histoire Medium, a été présentée sur Product Hunt. Un an plus tard, cela donne naissance à toute une entreprise.
« Nous avons vu une plus grande opportunité en aidant les individus et les organisations à créer un contenu audio réaliste pour leurs applications », a déclaré Syed à TechCrunch. « Sans avoir besoin de créer leur propre modèle, ils pourraient déployer des expériences vocales de qualité humaine plus rapidement que jamais. »
La société de Syed et Felfel, PlayAI (anciennement PlayHT), se présente comme « l'interface vocale de l'IA ». Les clients peuvent choisir parmi un certain nombre de voix prédéfinies, ou cloner une voix et utiliser l'API de PlayAI pour intégrer la synthèse vocale dans leurs applications.
Les bascules permettent aux utilisateurs d'ajuster l'intonation, la cadence et la teneur des voix.
PlayAI propose également un « terrain de jeu » où les utilisateurs peuvent télécharger un fichier pour générer une version lue à haute voix et un tableau de bord pour créer des narrations audio et des voix off plus soignées. Récemment, l'entreprise s'est lancée dans le jeu des « agents IA » avec des outils qui peuvent être utilisés pour automatiser des tâches telles que répondre aux appels des clients dans une entreprise.
L'une des expériences les plus intéressantes de PlayAI est PlayNote, qui transforme des PDF, des vidéos, des photos, des chansons et d'autres fichiers en émissions de style podcast, en résumés lus à haute voix, en débats individuels et même en histoires pour enfants. Comme NotebookLM de Google, PlayNote génère un script à partir d'un fichier ou d'une URL téléchargé et le transmet à une collection de modèles d'IA, qui créent ensemble le produit fini.
Je l'ai essayé et les résultats n'étaient pas si mauvais. Le paramètre « podcast » de PlayNote produit des clips plus ou moins comparables à ceux de NotebookLM en termes de qualité, et la capacité de l'outil à ingérer des photos et des vidéos permet des créations fascinantes. Étant donné une photo d'un plat de taupe au poulet que j'avais récemment, PlayNote a écrit un script de podcast de cinq minutes à ce sujet. Vraiment, nous vivons dans le futur.
Certes, l’outil, comme tous les outils d’IA, génère de temps en temps d’étranges artefacts et hallucinations. Et même si PlayNote fera de son mieux pour adapter un fichier au format que vous avez choisi, ne vous attendez pas, par exemple, à un dépôt légal sec pour obtenir le meilleur matériel source. Voir : le procès Musk contre OpenAI présenté comme une histoire au coucher :
Le format podcast de PlayNote est rendu possible par le dernier modèle de PlayAI, PlayDialog, qui, selon Syed, peut utiliser le « contexte et l'historique » d'une conversation pour générer un discours qui reflète le flux de la conversation. « En utilisant le contexte historique d'une conversation pour contrôler la prosodie, l'émotion et le rythme, PlayDialog propose une conversation avec un ton naturel et approprié », a-t-il poursuivi.
PlayAI, qui est un proche rival d'ElevenLabs, a été critiqué dans le passé pour son approche de laissez-faire en matière de sécurité. L'outil de clonage vocal de l'entreprise exige que les utilisateurs cochent une case indiquant qu'ils « disposent de tous les droits ou consentements nécessaires » pour cloner une voix – mais il n'existe aucun mécanisme d'application. Je n'ai eu aucune difficulté à créer un clone de la voix de Kamala Harris à partir d'un enregistrement.
C’est inquiétant compte tenu du potentiel d’escroqueries et de deepfakes.

PlayAI affirme également qu'il détecte et bloque automatiquement « les contenus à caractère sexuel, offensant, raciste ou menaçant ». Mais ce n'était pas le cas lors de mes tests. J'ai utilisé le clone Harris pour générer un discours que je ne peux franchement pas intégrer ici et je n'ai jamais vu de message d'avertissement.
Pendant ce temps, le portail communautaire de PlayNote, qui regorge de contenu généré publiquement, contient des fichiers avec des titres explicites comme « Femme effectuant un sexe oral ».
Syed me dit que PlayAI répond aux rapports de voix clonées sans consentement, comme celui-ci, en bloquant l'utilisateur responsable et en supprimant immédiatement la voix clonée. Il fait également valoir que les clones vocaux de la plus haute fidélité de PlayAI, qui nécessitent 20 minutes d'échantillons vocaux, sont plus chers (49 $ par mois facturés annuellement ou 99 $ par mois) que la plupart des escrocs sont prêts à payer.
« PlayAI a mis en place plusieurs garanties éthiques », a déclaré Syed. « Nous avons mis en place des mécanismes robustes pour déterminer si une voix a été synthétisée à l'aide de notre technologie, par exemple. Si une utilisation abusive est signalée, nous vérifions rapidement l’origine du contenu et prenons des mesures décisives pour remédier à la situation et prévenir de nouvelles violations éthiques.
J'espère certainement que ce sera le cas – et que PlayAI s'éloignera des campagnes marketing mettant en vedette des célébrités technologiques décédées. Si la modération de PlayAI n'est pas robuste, elle pourrait faire face à des contestations judiciaires dans le Tennessee, qui a une loi en vigueur interdisant aux plateformes d'héberger l'IA pour effectuer des enregistrements non autorisés de la voix d'une personne.
L'approche de PlayAI en matière de formation de son IA de clonage vocal est également un peu trouble. L'entreprise ne révélera pas d'où elle provient les données de ses modèles, apparemment pour des raisons de concurrence.
« PlayAI utilise principalement des ensembles de données ouvertes, [as well as licensed data] et des ensembles de données propriétaires construits en interne », a déclaré Syed. « Nous n'utilisons pas les données des utilisateurs des produits en formation, ni des créateurs pour former des modèles. Nos modèles sont formés sur des millions d’heures de parole humaine réelle, produisant des voix masculines et féminines dans plusieurs langues et accents.
La plupart des modèles d'IA sont formés sur des données Web publiques, dont certaines peuvent être protégées par le droit d'auteur ou sous une licence restrictive. De nombreux fournisseurs d’IA affirment que la doctrine de l’utilisation équitable les protège des réclamations en matière de droits d’auteur. Mais cela n'a pas empêché les propriétaires de données d'intenter des recours collectifs alléguant que les fournisseurs utilisaient leurs données sans autorisation.
PlayAI n'a pas été poursuivi. Cependant, ses conditions d'utilisation suggèrent qu'il ne s'en prendra pas aux utilisateurs s'ils se trouvent sous une menace juridique.
Les plateformes de clonage vocal comme PlayAI font l’objet de critiques de la part d’acteurs qui craignent que le travail vocal soit finalement remplacé par des voix générées par l’IA et que les acteurs aient peu de contrôle sur la façon dont leurs doubles numériques sont utilisés.
Le syndicat des acteurs hollywoodiens SAG-AFTRA a conclu des accords avec certaines startups, notamment le marché des talents en ligne Narrativ et Replica Studios, pour ce qu'il décrit comme des accords de clonage de voix « justes » et « éthiques ». Mais même ces rapprochements ont fait l’objet d’un examen minutieux, notamment de la part des propres membres de la SAG-AFTRA.
En Californie, les lois exigent que les entreprises qui s'appuient sur la réplique numérique d'un artiste (par exemple la voix clonée) fournissent une description de l'utilisation prévue de la réplique et négocient avec le conseiller juridique de l'artiste. Ils exigent également que les employeurs du secteur du divertissement obtiennent le consentement de la succession d'un artiste décédé avant d'utiliser un clone numérique de cette personne.
Syed dit que PlayAI « garantit » que chaque clone vocal généré via sa plate-forme est exclusif au créateur. « Cette exclusivité est vitale pour protéger les droits de création des utilisateurs », a-t-il ajouté.
La charge juridique croissante constitue un obstacle pour PlayAI. Un autre est la concurrence. Papercup, Deepdub, Acapela, Respeecher et Voice.ai, ainsi que les grands acteurs technologiques historiques Amazon, Microsoft et Google, proposent des outils de doublage IA et de clonage vocal. ElevenLabs, l'un des fournisseurs de clonage vocal les plus en vue, serait en train de lever de nouveaux fonds pour une valeur de plus de 3 milliards de dollars.
PlayAI n'a cependant pas de mal à trouver des investisseurs. Ce mois-ci, la société soutenue par Y Combinator a clôturé un tour de table de 20 millions de dollars co-dirigé par 500 startups et Kindred Ventures, portant son capital total levé à 21 millions de dollars. Race Capital et 500 Global ont également participé.
« Le nouveau capital sera utilisé pour investir dans nos modèles vocaux d'IA génératifs et notre plateforme d'agents vocaux, et pour réduire le temps nécessaire aux entreprises pour créer des expériences vocales de qualité humaine », a déclaré Syed, ajoutant que PlayAI prévoit d'élargir son effectif de 40 personnes. .
