OpenAI open-sources Whisper, un système de reconnaissance vocale multilingue

La reconnaissance vocale reste un problème difficile dans l’IA et l’apprentissage automatique. Dans une étape vers sa résolution, OpenAI aujourd’hui Whisper en open source, un système de reconnaissance automatique de la parole qui, selon la société, permet une transcription « robuste » dans plusieurs langues ainsi que la traduction de ces langues vers l’anglais.

D’innombrables organisations ont développé des systèmes de reconnaissance vocale hautement performants, qui sont au cœur des logiciels et des services de géants de la technologie comme Google, Amazon et Meta. Mais ce qui différencie Whisper, selon OpenAI, c’est qu’il a été formé sur 680 000 heures de données multilingues et « multitâches » collectées sur le Web, ce qui a permis d’améliorer la reconnaissance des accents uniques, du bruit de fond et du jargon technique.

« Les principaux utilisateurs prévus de [the Whisper] Les modèles sont des chercheurs en IA qui étudient la robustesse, la généralisation, les capacités, les biais et les contraintes du modèle actuel. Cependant, Whisper est également potentiellement très utile en tant que solution de reconnaissance vocale automatique pour les développeurs, en particulier pour la reconnaissance vocale en anglais », a écrit OpenAI dans le GitHub. dépôt pour Whisper, à partir duquel plusieurs versions du système peuvent être téléchargées. « [The models] afficher de bons résultats ASR dans environ 10 langues. Ils peuvent présenter des capacités supplémentaires… s’ils sont affinés sur certaines tâches telles que la détection de l’activité vocale, la classification des locuteurs ou la diarisation des locuteurs, mais n’ont pas été solidement évalués dans ces domaines.

Whisper a ses limites, en particulier dans le domaine de la prédiction de texte. Parce que le système a été formé sur une grande quantité de données « bruyantes », OpenAI avertit que Whisper pourrait inclure des mots dans ses transcriptions qui n’ont pas été réellement prononcés – peut-être parce qu’il essaie à la fois de prédire le mot suivant dans l’audio et d’essayer de transcrire l’audio lui-même . De plus, Whisper ne fonctionne pas aussi bien dans toutes les langues, souffrant d’un taux d’erreur plus élevé lorsqu’il s’agit de locuteurs de langues qui ne sont pas bien représentés dans les données de formation.

Ce dernier élément n’est malheureusement pas nouveau dans le monde de la reconnaissance vocale. Les biais ont longtemps tourmenté même les meilleurs systèmes, avec une étude de Stanford de 2020 qui a révélé que les systèmes d’Amazon, Apple, Google, IBM et Microsoft ont fait beaucoup moins d’erreurs – environ 35 % – avec les utilisateurs blancs qu’avec les utilisateurs noirs.

Malgré cela, OpenAI voit les capacités de transcription de Whisper utilisées pour améliorer les outils d’accessibilité existants.

« Bien que les modèles Whisper ne puissent pas être utilisés pour la transcription en temps réel prêts à l’emploi, leur vitesse et leur taille suggèrent que d’autres pourraient être en mesure de créer des applications dessus qui permettent une reconnaissance et une traduction de la parole en temps quasi réel », la société continue sur GitHub. « La valeur réelle des applications bénéfiques construites sur les modèles Whisper suggère que les performances disparates de ces modèles peuvent avoir de réelles implications économiques… [W]Nous espérons que la technologie sera utilisée principalement à des fins bénéfiques, rendre la technologie de reconnaissance automatique de la parole plus accessible pourrait permettre à davantage d’acteurs de développer des technologies de surveillance performantes ou d’intensifier les efforts de surveillance existants, car la vitesse et la précision permettent une transcription et une traduction automatiques abordables de gros volumes de la communication audio.

La sortie de Whisper n’est pas nécessairement indicative des plans futurs d’OpenAI. Tout en se concentrant de plus en plus sur des efforts commerciaux comme DALL-E 2 et GPT-3, la société poursuit plusieurs fils de recherche purement théoriques, y compris des systèmes d’IA qui apprendre en observant des vidéos.

L'équipe rédactionnelle

L'équipe rédactionnelle de Soutenons Nos Entreprises est composée de professionnels passionnés par le monde de l'entrepreneuriat et du business. Nos rédacteurs et journalistes chevronnés s'engagent à fournir des actualités pertinentes sur les grandes entreprises mondiales et à partager des conseils précieux pour les entrepreneurs et les start-up. Ensemble, nous nous efforçons de soutenir et d'informer nos lecteurs sur les enjeux économiques actuels.

Start-up

Axion Ray apporte l’intelligence à la fabrication pour détecter les problèmes avant qu’ils ne causent des problèmes

ParL'équipe rédactionnelle 15 février 202315 février 2023

Les fabricants sont confrontés à une gamme vertigineuse de problèmes potentiels autour des machines qu’ils produisent, et il est difficile de détecter les problèmes. Ce n’est pas seulement bon à savoir. Il s’agit d’informations cruciales, souvent suivies manuellement aujourd’hui par des auditeurs humains dans des feuilles de calcul. Dans certains cas, ne pas comprendre quand…

Start-up

Mozilla dirige le financement de pré-amorçage de l’application Mastodon Mammoth

ParL'équipe rédactionnelle 1 mars 2023

Mammoth, une application Mastodon récemment lancée qui tente de faciliter la tâche des utilisateurs qui souhaitent rejoindre le Web social décentralisé, a un soutien financier notable. La société a confirmé que son principal investisseur de pré-amorçage est Mozilla, un partisan du Web ouvert, qui a investi dans le premier tour général de la société aux…

Start-up

Startup de test de génétique Nucleus Genomics a critiqué pour son produit d'embryon: «me rend si nauséeux»

ParL'équipe rédactionnelle 6 juin 2025

Nucleus Genomics, une startup d'essais génétiques fondée par Kian Sadeghi, âgée de 25 ans, a initialement lancé en 2021 dans le but de calculer le risque d'un patient pour des maladies spécifiques. Mais cela courtise la controverse depuis des années avec des produits qui prétendent dire aux gens comment leur génétique est en corrélation avec…

Start-up

Avec la disparition des espoirs d’une herbe plus verte en Allemagne, une consolidation est à l’ordre du jour pour les sociétés de cannabis

ParL'équipe rédactionnelle 29 décembre 202329 décembre 2023

Alors que 2023 arrive pour finir, il est tout à fait naturel de réfléchir à ce qui s’est passé sur les marchés que nous couvrons. Mais lorsqu’il s’agit de cannabis, la réponse est « pas grand-chose », ce qui n’aidera pas les startups du secteur du cannabis qui sont déjà confrontées à un environnement de…

Start-up

Wanda Fish navigue dans les eaux de VC pour capturer 7 millions de dollars destinés à la production de thon rouge cultivé

ParL'équipe rédactionnelle 9 octobre 20239 octobre 2023

Wanda Fish Technologies, une startup israélienne de technologie alimentaire, a obtenu un financement de démarrage de 7 millions de dollars pour accélérer la production initiale de thon rouge cultivé. La technologie cultivée, ou cultivée sur cellules, consiste à créer des protéines animales à partir de cellules sans qu’il soit nécessaire d’abattre l’animal. Les cellules sont…

Start-up

Pour les startups d’orchestration des paiements LatAm, la fragmentation du marché est une bénédiction déguisée

ParL'équipe rédactionnelle 12 septembre 20229 octobre 2022

Dans le vaste et des terres variées entre la Patagonie et le Rio Grande, une région que les entrepreneurs et les investisseurs aiment appeler « LatAm », il y a 38 pays différents utilisant 39 devises différentes. Seulement 19% des adultes latino-américains possèdent une carte de crédit et 70 % des cartes de crédit au Brésil, en Argentine…

A lire également