Le clonage de Tavus en action

Tavus, un enfant de quatre ans La startup d'IA générative qui aide les entreprises à créer des « répliques » numériques d'individus pour des campagnes vidéo personnalisées automatisées, a confirmé un nouveau financement de 18 millions de dollars et a révélé qu'elle ouvrait sa plate-forme à des tiers pour intégrer leur logiciel à la technologie de l'entreprise.

Des informations ont été publiées en août selon lesquelles Tavus avait collecté « environ 18 millions de dollars », mais les détails étaient rares. La société a maintenant confirmé à TechCrunch qu'elle avait effectivement levé 18 millions de dollars dans le cadre d'un cycle de série A dirigé par Scale Venture Partners – un capital-risque en phase de démarrage qui a déjà soutenu Box, HubSpot et DocuSign. Parmi les autres investisseurs notables figurent Sequoia, qui a dirigé le cycle de démarrage de 6,1 millions de dollars de Tavus l'année dernière, qui a participé aux côtés de Y Combinator (YC) et HubSpot.

La vidéo occupe le devant de la scène

Le mouvement de l’IA générative est mieux illustré par les moteurs de recherche textuels comme ChatGPT et les modèles de texte-image tels que DALL-E, qu’OpenAI est en train de combiner en une seule plateforme entièrement chantée. Mais si l’on se fie aux derniers mois, l’IA générative pourrait être à l’aube d’une autre révolution mineure, avec la vidéo occupant le devant de la scène.

OpenAI a récemment lancé Sora, un modèle de conversion texte-vidéo qui pourrait transformer l'industrie créative telle que nous la connaissons. Mais il est loin d'être le seul acteur en ville, avec des géants de la technologie tels que Google travaillant sur des outils similaires depuis plusieurs années, sans parler d'un grand nombre de startups qui ont levé des parts importantes de changement de capital-risque au cours de l'année écoulée pour diverses réalisations sur la façon dont l'IA générative pourrait croiser la vidéo.

Tavus, pour sa part, travaille avec ses clients pour créer des répliques d'individus grâce au clonage de la voix et du visage. L'idée est que les équipes commerciales et marketing peuvent utiliser Tavus pour envoyer des vidéos personnalisées aux prospects à grande échelle, ou peut-être qu'une équipe produit peut créer des vidéos pas à pas personnalisées pour intégrer de nouveaux clients, le tout via de simples invites textuelles qui exploitent la réplique numérique créée précédemment. Et en intégrant Tavus à des systèmes tiers tels que Salesforce ou Mailchimp, les entreprises peuvent automatiser une grande partie de cela : par exemple, un client qui remplit un formulaire en ligne demandant des informations complémentaires sur un produit peut recevoir instantanément par e-mail une vidéo, avec un représentant commercial s'adressant à lui. le prospect par son nom et en expliquant les prochaines étapes.

Tavus a réussi jusqu'à présent à attirer des clients assez importants au cours de sa courte vie, notamment Salesforce et la société mère de Facebook, Meta, qui, selon le co-fondateur et PDG Hassaan Raza, utilisent la plate-forme pour vendre à leurs clients B2B respectifs via des vidéos de démonstration personnalisées.

Tavus comme plateforme

Jusqu'à présent, Tavus était servi via une application SaaS, grâce à laquelle les clients créent leurs propres modèles vidéo IA. Le processus d'intégration nécessite qu'une personne, telle que le PDG ou le directeur commercial, pour enregistrer une vidéo de 15 minutes basée sur un script fourni par Tavus.

Ceci est ensuite utilisé pour entraîner l'IA, après quoi l'utilisateur accède à un éditeur Web et sélectionne les parties de la vidéo qu'il souhaite personnaliser en définissant les variables, telles que l'emplacement, le nom du dirigeant, l'entreprise ou le produit. En intégrant Tavus à leur système CRM, les entreprises peuvent ajuster chacune de ces variables pour l'adapter à un segment de clientèle particulier, comme ceux qui ont exprimé leur intérêt pour un produit particulier.

Modification des variables

Les entreprises peuvent créer des centaines de ces répliques avec différents personnels impliqués, issus de différents horizons et destinés à différents marchés cibles.

Grâce à l'éditeur intégré à l'application, il est possible de générer un nombre illimité de scripts différents à attacher à chaque cas d'utilisation, sans avoir à réenregistrer la vidéo originale.

Les différents avatars de Tavus

Bien que ce produit SaaS de base ne disparaisse pas, Tavus lève aujourd'hui le voile sur une nouvelle version turbo de sa technologie ainsi que sur le premier volet d'une suite d'API de développement qui permettent à des tiers d'intégrer Tavus dans leurs propres applications.

Reproduire

La première facette de la nouvelle plate-forme de développement de Tavus est son « API de réplique », qui consiste à créer des répliques numériques « photo-réalistes » remplies de génération de texte en vidéo. Grâce à cela, une entreprise peut reproduire une personne (par exemple, un responsable marketing ou un PDG) en utilisant un nouveau modèle exclusif créé par Tavus et baptisé « Phoenix », basé sur une méthode d'apprentissage en profondeur appelée champ de rayonnement neuronal (NeRF). Cela peut générer une construction 3D d’une personne à partir d’images 2D en quelques minutes seulement.

« Cela vous permet essentiellement de créer des vidéos entières avec seulement deux minutes de données d'entraînement, ce qui constitue un grand pas en avant par rapport à la façon dont nous faisions auparavant la personnalisation à grande échelle », a déclaré Raza à TechCrunch. « Et maintenant, tout ce que vous avez à faire est d'enregistrer deux minutes de données d'entraînement, et cela créera une réplique complète de vous. Et une fois que vous avez une réplique, vous pouvez créer autant de vidéos que vous le souhaitez, à partir d'un, deux ou mille scripts.

Tavus : simulation montrant comment le modèle Phoenix NeRF cartographie le visage d'un utilisateur pour créer une réplique réaliste
Le modèle Phoenix de Tavus construit un modèle 3D à l'aide d'une entrée vidéo 2D via des champs de radiance neuronale (NeRF).

La première réplique API s'appuie sur toutes les fonctionnalités du modèle Phoenix et capture les mouvements du visage d'un individu, notamment les joues, le nez, les sourcils et les lèvres.

« Bouger tout votre visage favorise le réalisme, le naturel et la qualité. Lorsque vous parlez, votre visage exprime des émotions au-delà du mouvement de vos lèvres », a expliqué Raza. « Si vous souhaitez générer une vidéo entière à partir d'un script (dans lequel vous parlez, qui semble naturel et d'une qualité incroyablement élevée), vous devez utiliser l'API de réplique. »

Cependant, Tavus développe également un certain nombre d'API supplémentaires, dont une spécifiquement pour la synchronisation labiale, une pour le doublage et une pour la diffusion de campagnes vidéo personnalisées de masse.

L'API de synchronisation labiale aura un « coût d'entrée inférieur », selon Raza, et est meilleure pour les situations où « un degré élevé de qualité et de réalisme n'est pas nécessaire ».

L'API de doublage, quant à elle, utilise également le modèle de synchronisation labiale, mais inclut également le clonage vocal multilingue, ce qui signifie qu'un utilisateur monolinguiste peut envoyer des campagnes vidéo dans n'importe quel nombre de langues en utilisant sa propre voix. Dans ce cas, étant donné que la majeure partie de la vidéo restera la même, l'API permet un simple remplacement des mouvements des lèvres pour s'aligner sur les différents sons provenant de la bouche de l'utilisateur. Cela pourrait s'avérer utile pour les créateurs d'une suite logicielle de montage vidéo, par exemple, lorsqu'ils souhaitent permettre à leurs utilisateurs d'ajouter de la synchronisation labiale, du montage et du doublage à leurs vidéos.

Ensuite, l'API de campagne vidéo regroupe essentiellement l'API de réplique ainsi qu'une série d'outils supplémentaires, tels que l'hébergement, le mappage de variables, les miniatures et les analyses, pour ceux qui cherchent à lancer des campagnes vidéo à grande échelle.

« Nous offrons à tout développeur la possibilité de proposer une expérience de campagne vidéo de bout en bout, prête à l'emploi, au sein de ses propres solutions », a déclaré Raza. « Alors que les API de réplique et de synchronisation labiale sont davantage un « modèle en tant que service », l'API de campagne vous offre des outils pour créer facilement une plate-forme de campagne vidéo IA.

Raza est resté timide quant à l'identité de certains des premiers utilisateurs de la plate-forme Tavus, mais il a déclaré qu'elle « travaillait avec l'une des plus grandes plates-formes vidéo » pour l'engagement des clients. « Ils cherchent à proposer cela à leurs millions de clients qui utilisent déjà leur plateforme pour créer des vidéos quotidiennement », a déclaré Raza.

Dilemme du deepfake

Instinctivement, les plateformes telles que Tavus sont propices à une utilisation abusive. Après tout, qu'est-ce qui empêche quiconque de télécharger une vidéo préexistante pour créer une réplique numérique ? Les deepfakes sont en effet une préoccupation croissante dans le mouvement naissant de l’IA, mais Raza affirme avoir mis en place des contrôles pour éviter les chicanes. Par exemple, lorsqu'un utilisateur soumet ses deux minutes de séquences de formation, il doit également soumettre une déclaration de consentement verbal spécifique, qui est ensuite alignée sur l'audio de la séquence de formation pour garantir qu'il y a une correspondance.

« Nous effectuons ces contrôles automatiquement, puis effectuons une vérification humaine pour chaque réplique qui passe les contrôles automatisés pour garantir la sécurité », a déclaré Raza.

Il est facile de voir comment cela pourrait fonctionner avec Tavus en tant qu'application SaaS autonome, mais maintenant qu'il s'agit d'une plate-forme accessible à un certain nombre d'entreprises via une API, qui contrôle alors la vérification ? Eh bien, il s'avère que Tavus l'est : la société souhaite garder la main sur le volant de vérification, même lorsqu'elle fournit simplement le moteur à des développeurs tiers.

« Nous effectuons les mêmes contrôles et assumons la responsabilité des vérifications auprès des [the] API également », a poursuivi Raza.

Extension de la réalité

Alors qu’OpenAI est devenu presque le visage public de l’IA générative, il y a plus que suffisamment de place pour que différents acteurs apportent quelque chose de différent au mélange. En effet, alors que DALL-E et le modèle Sora récemment publié par OpenAI visent principalement à aider les gens à créer des visuels à partir d'invites textuelles, Raza affirme que la raison d'être de Tavus consiste davantage à « étendre » la propre réalité d'une personne.

« Nous voyons un avenir dans lequel chacun voudra avoir une réplique numérique de lui-même ; ils contrôlent cela et ils ont toute autorité là-dessus », a déclaré Raza. « Et il sera important que cela finisse par capturer de plus en plus de votre personnalité, de plus en plus de vos gestes et de vos traits de caractère. C’est ainsi que nous voyons les choses évoluer : il y aura des modèles qui créeront des choses qui n’existent pas, et puis il y aura des modèles qui étendront votre réalité.

Avec 18 millions de dollars en banque, Raza a déclaré que la récente injection de liquidités servirait à « alimenter le feu qui brûle déjà » dans les tours Tavus.

« Nous sommes une société de recherche en IA, nous voulons donc pouvoir poursuivre le développement de modèles plus récents comme Phoenix », a déclaré Raza. « Mais il suffit également de soutenir notre croissance, nous avons continuellement une tonne de demande. Et nous souhaitons pouvoir embaucher en permanence nos équipes d’apprentissage automatique et d’ingénierie pour soutenir nos clients développeurs et SaaS.

A lire également