DeepL s'est fait un nom avec la traduction de textes en ligne qui, selon elle, est plus nuancée et précise que les services de Google – un discours qui a catapulté la startup allemande à une valorisation de 2 milliards de dollars et à plus de 100 000 clients payants.
Aujourd’hui, alors que le battage médiatique pour les services d’IA continue de croître, DeepL ajoute un autre mode à la plateforme : l’audio. Les utilisateurs pourront désormais utiliser DeepL Voice pour écouter quelqu'un parler dans une langue et le traduire automatiquement dans une autre, en temps réel.
L'anglais, l'allemand, le japonais, le coréen, le suédois, le néerlandais, le français, le turc, le polonais, le portugais, le russe, l'espagnol et l'italien sont des langues que DeepL peut « entendre » aujourd'hui. Les sous-titres traduits sont disponibles pour les 33 langues actuellement prises en charge par DeepL Translator.
DeepL Voice ne parvient actuellement pas à fournir le résultat sous forme de fichier audio ou vidéo lui-même : le service est destiné aux conversations en direct et aux vidéoconférences en temps réel, et se présente sous forme de texte et non d'audio.
Dans le premier d'entre eux, vous pouvez configurer vos traductions pour qu'elles apparaissent comme des « miroirs » sur un smartphone — l'idée étant que vous placez le téléphone entre vous sur une table de réunion pour que chaque côté puisse voir les mots traduits — ou comme une transcription qui vous partagez côte à côte avec quelqu'un. Le service de visioconférence voit les traductions apparaître sous forme de sous-titres.
Cela pourrait changer avec le temps, a laissé entendre Jarek Kutylowski, fondateur et PDG de l'entreprise (photo ci-dessus), dans une interview. Il s'agit du premier produit vocal de DeepL, mais il est peu probable que ce soit le dernier. « [Voice] C’est là que la traduction va se jouer l’année prochaine », a-t-il ajouté.
Il existe d’autres preuves pour étayer cette affirmation. Google – l'un des plus grands concurrents de DeepL – a également commencé à intégrer des sous-titres traduits en temps réel dans son service de visioconférence Meet. Et il existe une multitude de startups d’IA qui créent des services de traduction vocale, comme ElevenLabs (ElevenLabs Dubbing), spécialiste de la voix en IA, et Panjaya, qui crée des traductions à l’aide de voix et de vidéos « deepfakes » qui correspondent à l’audio.
Ce dernier utilise l'API d'ElevenLabs et, selon Kutylowski, ElevenLabs lui-même utilise la technologie de DeepL pour alimenter son service de traduction.
La sortie audio n'est pas la seule fonctionnalité encore à lancer.
Il n’existe pas non plus d’API pour le produit vocal pour le moment. L'activité principale de DeepL est axée sur le B2B et Kutylowski a déclaré que la société travaillait directement avec des partenaires et des clients.
Il n'y a pas non plus un large choix d'intégrations : le seul service d'appel vidéo qui prend actuellement en charge les sous-titres de DeepL est Teams, qui « couvre la plupart de nos clients », a déclaré Kutylowski. On ne sait pas quand ou si Zoom ou Google Meet intégrera DeepL Voice sur toute la ligne.
Le produit semblera long à venir pour les utilisateurs de DeepL, pas seulement parce que nous avons été inondés par une pléthore d'autres services vocaux d'IA destinés à la traduction. Kutylowski a déclaré qu'il s'agissait de la demande n°1 des clients depuis 2017, année du lancement de DeepL.
Cette attente s'explique en partie par le fait que DeepL a adopté une approche assez délibérée pour créer son produit. Contrairement à de nombreuses autres applications dans le monde des applications d'IA qui s'appuient et modifient les grands modèles de langage (LLM) d'autres entreprises, l'objectif de DeepL est de construire son service à partir de zéro. En juillet, la société a publié un nouveau LLM optimisé pour les traductions qui, selon elle, surpasse GPT-4, ainsi que celles de Google et Microsoft, notamment parce que son objectif principal est la traduction. La société a également continué à améliorer la qualité de sa production écrite et de son glossaire.
De même, l'un des arguments de vente uniques de DeepL Voice est qu'il fonctionnera en temps réel, ce qui est important puisque de nombreux services de « traduction IA » sur le marché fonctionnent en réalité avec un délai, ce qui les rend plus difficiles, voire impossibles, à utiliser dans des situations réelles. c’est le cas d’utilisation auquel DeepL s’adresse.
Kutylowski a laissé entendre que c'était une autre raison pour laquelle le nouveau produit de traitement vocal se concentre sur les traductions basées sur du texte : elles peuvent être calculées et produites très rapidement, tandis que le traitement et l'architecture de l'IA ont encore du chemin à parcourir avant de pouvoir produire de l'audio et vidéo aussi rapidement.
Les vidéoconférences et les réunions sont probablement des cas d'utilisation de DeepL Voice, mais Kutylowski a noté qu'un autre cas majeur envisagé par l'entreprise concerne le secteur des services, où les travailleurs de première ligne, par exemple dans les restaurants, pourraient utiliser le service pour communiquer plus facilement avec les clients.
Cela pourrait être utile, mais cela met également en évidence l’un des points les plus difficiles du service. Dans un monde où nous sommes tous soudainement beaucoup plus conscients de la protection des données et où nous nous inquiétons de la manière dont les nouveaux services et plates-formes récupèrent des informations privées ou exclusives, il reste à voir dans quelle mesure les gens seront désireux de voir leur voix être entendue et utilisé de cette façon.
Kutylowski a insisté sur le fait que même si les voix seront acheminées vers ses serveurs pour être traduites (le traitement n'a pas lieu sur l'appareil), rien n'est conservé par ses systèmes, ni utilisé pour la formation de ses LLM. En fin de compte, DeepL travaillera avec ses clients pour s'assurer qu'ils ne violent pas le RGPD ou toute autre réglementation sur la protection des données.
