Aura de Deepgram donne une voix aux agents IA

Deepgram s'est fait un nom comme l'une des startups incontournables en matière de reconnaissance vocale. Aujourd'hui, la société bien financée a annoncé le lancement d'Aura, sa nouvelle API de synthèse vocale en temps réel. Aura combine des modèles de voix très réalistes avec une API à faible latence pour permettre aux développeurs de créer des agents d'IA conversationnels en temps réel. Soutenus par des modèles de langage étendus (LLM), ces agents peuvent ensuite remplacer les agents du service client dans les centres d'appels et dans d'autres situations en contact avec les clients.

Comme me l'a dit Scott Stephenson, co-fondateur et PDG de Deepgram, il est depuis longtemps possible d'avoir accès à d'excellents modèles vocaux, mais ceux-ci étaient coûteux et prenaient beaucoup de temps à calculer. Pendant ce temps, les modèles à faible latence ont tendance à paraître robotiques. Aura de Deepgram combine des modèles de voix de type humain qui s'affichent extrêmement rapidement (généralement en moins d'une demi-seconde) et, comme Stephenson l'a souligné à plusieurs reprises, le fait à bas prix.

« Maintenant, tout le monde se dit : 'hé, nous avons besoin de robots d'IA vocale en temps réel qui peuvent percevoir ce qui est dit et qui peuvent comprendre et générer une réponse – et ensuite ils peuvent répondre' », a-t-il déclaré. Selon lui, il faut une combinaison de précision (qu'il a décrite comme des enjeux pour un service comme celui-ci), une faible latence et des coûts acceptables pour qu'un produit comme celui-ci en vaille la peine pour les entreprises, en particulier lorsqu'il est combiné avec le coût relativement élevé d'accès aux LLM. .

Deepgram affirme que le prix d'Aura bat actuellement pratiquement tous ses concurrents à 0,015 $ pour 1 000 caractères. Ce n'est pas si loin du prix de Google pour ses voix WaveNet à 0,016 pour 1 000 caractères et des voix Polly's Neural d'Amazon au même 0,016 $ pour 1 000 caractères, mais – certes – c'est moins cher. Le niveau le plus élevé d’Amazon est cependant nettement plus cher.

« Il faut atteindre un très bon niveau de prix dans tous les domaines. [segments], mais vous devez également avoir des latences et une vitesse incroyables, ainsi qu'une précision incroyable. C'est donc une chose très difficile à atteindre », a déclaré Stephenson à propos de l'approche générale de Deepgram pour créer son produit. « Mais c'est ce sur quoi nous nous sommes concentrés dès le début et c'est pourquoi nous avons construit pendant quatre ans avant de publier quoi que ce soit, car nous construisions l'infrastructure sous-jacente pour concrétiser cela. »

Aura propose à ce stade une douzaine de modèles vocaux, tous formés par un ensemble de données créé par Deepgram avec des acteurs vocaux. Le modèle Aura, comme tous les autres modèles de l'entreprise, a été formé en interne. Voici à quoi cela ressemble :

Vous pouvez essayer une démo d'Aura ici. Je le teste depuis un moment et même si vous rencontrerez parfois des prononciations étranges, la vitesse est vraiment ce qui ressort, en plus du modèle parole-texte de haute qualité existant de Deepgram. Pour mettre en évidence la vitesse à laquelle il génère des réponses, Deepgram note le temps qu'il a fallu au modèle pour commencer à parler (généralement moins de 0,3 seconde) et combien de temps il a fallu au LLM pour finir de générer sa réponse (qui est généralement un peu moins d'une seconde).

L'équipe rédactionnelle

L'équipe rédactionnelle de Soutenons Nos Entreprises est composée de professionnels passionnés par le monde de l'entrepreneuriat et du business. Nos rédacteurs et journalistes chevronnés s'engagent à fournir des actualités pertinentes sur les grandes entreprises mondiales et à partager des conseils précieux pour les entrepreneurs et les start-up. Ensemble, nous nous efforçons de soutenir et d'informer nos lecteurs sur les enjeux économiques actuels.

Start-up

Cryptoys finance un financement de 16z pour créer des NFT pour les enfants

ParL'équipe rédactionnelle 24 juin 20229 octobre 2022

Les derniers mois n’ont pas été entièrement favorables au marché NFT – alors que le volume des transactions n’a pas trop bégayé, le montant en dollars investi dans l’espace est en chute libre alors que les prix des crypto-monnaies ont plongé historiquement. Avec cela comme arrière-plan, cela pourrait ne pas sembler être le meilleur moment…

Start-up

TechCrunch+ Roundup : bases du SaaS+, choix de livres pour la fête du Travail, établissement de la confiance avec les clients de l’IA

ParL'équipe rédactionnelle 30 août 202330 août 2023

« SaaS+ » fait référence aux éditeurs de logiciels qui complètent leurs produits et services de base avec des fonctionnalités à valeur ajoutée telles que le commerce électronique intégré, l’assurance ou le traitement des paiements. L’intégration de ces fonctionnalités dans le pipeline de produits crée une commodité secondaire qui ravit les clients, ainsi que de…

Start-up

GIC soutient la startup indienne de véhicules électriques Euler Motors dans un financement de 60 millions de dollars

ParL'équipe rédactionnelle 4 octobre 20229 octobre 2022

Euler Motors, une startup indienne qui conçoit et construit des véhicules électriques commerciaux, a levé 60 millions de dollars lors d’un nouveau cycle de financement alors qu’elle s’efforce d’augmenter sa capacité de production et d’élargir ses offres. Le fonds souverain de Singapour, GIC, a dirigé le financement de série C de la startup basée à…

Start-up

Archer va mettre en place un réseau de taxis aériens à Los Angeles d'ici 2026 avant la Coupe du monde

ParL'équipe rédactionnelle 8 août 20248 août 2024

Los Angeles est connue pour ses embouteillages incessants. Trois événements qui promettent d'attirer des millions de spectateurs du monde entier – la Coupe du monde de 2026, le Super Bowl en 2027 et les Jeux olympiques de 2028 – poussent les responsables de la ville à rechercher de nouvelles solutions de mobilité pour résoudre ses…

Start-up

IO River vous permet de mélanger et d'associer des CDN sans tracas

ParL'équipe rédactionnelle 13 mars 202413 mars 2024

Les réseaux de diffusion de contenu (CDN) ont changé. Auparavant, il s’agissait de plates-formes permettant de fournir efficacement des fichiers statiques – et rien d’autre. De nos jours, cependant, pratiquement tous les services CDN ajoutent des services de calcul de pointe, des outils de sécurité et bien plus encore à leurs réseaux de distribution principaux….

Start-up

5 conseils d’experts pour gérer les effets de l’épuisement professionnel, même après une pause

ParL'équipe rédactionnelle 17 février 2023

Vous revenez de votre pause toujours épuisé ? Si vous travaillez depuis quelques semaines et que vous vous sentez aussi épuisé que lorsque vous avez terminé l’année dernière, vous ressentez peut-être encore les effets de l’épuisement professionnel, écrit Vesna Hrsto, naturopathe, coach et experte en bien-être. Selon l’Organisation mondiale de la santé (OMS), l’épuisement professionnel…

A lire également