Les modèles d’apprentissage automatique à grande échelle sont au cœur de technologies qui font la une des journaux comme DALL-E 2 d’OpenAI et LaMDA de Google. Ils sont impressionnants, c’est sûr, capables de générer des images et des textes suffisamment convaincants pour passer pour le travail d’un humain. Mais le développement des modèles a pris énormément de temps et de puissance de calcul, sans parler de l’argent. DALL-E 2 à lui seul a été formé sur 256 GPU pendant 2 semaines, ce qui représente un coût d’environ 130 000 $ s’il était formé sur des instances Amazon Web Services, selon un estimation.
Les petites entreprises ont du mal à suivre le rythme, c’est pourquoi beaucoup se tournent vers des fournisseurs « IA-as-a-service » qui gèrent le travail difficile de création de modèles et facturent leur accès via une API. L’un de ces fournisseurs est AssemblyAIqui se concentre spécifiquement sur les services de synthèse vocale et d’analyse de texte.
AssemblyAI a annoncé aujourd’hui avoir levé 30 millions de dollars lors d’un tour de table de série B dirigé par Insight Partners avec la participation de Y Combinator et Accel. À ce jour, AssemblyAI a levé 64 millions de dollars, dont le fondateur et PDG Dylan Fox dit que TechCrunch est investi dans la croissance des équipes de recherche et d’ingénierie de l’entreprise et dans la formation au modèle d’IA de la capacité des centres de données.
Fox a fondé AssemblyAI après un passage de 2 ans chez Cisco, où il a travaillé sur l’apprentissage automatique pour les produits de collaboration. Avant cela, il a lancé YouGive1, une organisation qui travaillait avec des entreprises pour récompenser les clients avec des offres de produits en échange de dons à but non lucratif.
« Je cherchais des API de reconnaissance vocale et de traitement du langage naturel (NLP) pour des projets antérieurs et j’ai lancé AssemblyAI après avoir constaté à quel point les options disponibles étaient limitées et peu précises en 2017 », a déclaré Fox à TechCrunch dans une interview par e-mail. « L’objectif de l’entreprise est de rechercher et de déployer des modèles d’IA de pointe pour la PNL et la reconnaissance vocale, et d’exposer ces modèles aux développeurs dans des kits de développement logiciel et des API très simples, gratuits et faciles à intégrer. »
AssemblyAI propose des services basés sur l’API et alimentés par l’IA dans plus de 80 langues pour la transcription automatique, la détection de sujets et la modération de contenu, ainsi que des «chapitres automatiques», qui décomposent les fichiers audio et vidéo en «chapitres» avec des résumés pour chacun. En utilisant la plate-forme, les développeurs peuvent appeler diverses API pour effectuer des tâches telles que « identifier les locuteurs dans cette conversation » ou « vérifier ce podcast pour le contenu interdit » à un coût relativement faible, à partir de 0,00025 $ par seconde audio.
« Nous entraînons des modèles d’IA massifs sur des centaines de GPU, avec des milliards de paramètres », a déclaré Fox. « Paramètres » fait référence à la taille des modèles ; d’une manière générale, les modèles plus grands sont plus sophistiqués. « En tirant parti des progrès de la recherche sur l’IA, nous continuons d’améliorer considérablement la précision de tous nos modèles d’IA et d’en lancer de nouveaux », a-t-il poursuivi. « ÔNotre fonctionnalité « AutoTrain » permet à l’API d’apprendre à partir d’un échantillon aléatoire des données d’un client afin de s’améliorer automatiquement au fil du temps. »
AssemblyAI n’est pas le seul acteur du secteur en pleine effervescence de l’IA en tant que service. NLPCloud fournit des modèles NLP prêts à l’emploi via des API, tandis que Sayso a créé une API pour changer l’anglais accentué d’un accent à un autre en temps quasi réel. Ce n’est pas pour rien qu’Amazon, Google et Microsoft proposent une multitude de produits d’IA basés sur des API ciblant des applications telles que l’analyse de texte, la reconnaissance d’images, la synthèse vocale, la synthèse vocale, etc.
Mais Fox dit que AssemblyAI continue de croître à un rythme rapide, alimenté par la pandémie et, par extension, l’essor du travail à distance. L’audio et la vidéo sont intégrés à un nombre croissant de produits, note-t-il, comme la vidéoconférence et même les applications de rencontres. C’est conduit pLes équipes de produit recherchent des moyens de créer des fonctionnalités additives à forte valeur ajoutée en plus des données audio et vidéo.
« Ces fonctionnalités ressemblent à des équipes de confiance et de sécurité dans des entreprises de médias sociaux automatisant la modération de contenu des publications audio, ou à des plateformes publicitaires identifiant automatiquement les sujets abordés dans les podcasts et les vidéos, des outils de collaboration fournissant des transcriptions lisibles, des résumés et des mots-clés pour les messages vidéo partagés sur leurs plateformes, et les entreprises de téléphonie construisant des plates-formes de centre de contact plus intelligentes et des produits de renseignement sur les revenus capables d’analyser le support client et les appels téléphoniques de vente », a déclaré Fox. « AssemblyAI devient rapidement la plate-forme API incontournable pour ces équipes de produits afin de pouvoir fournir ces fonctionnalités imprégnées d’IA en plus des données audio et vidéo dans leurs produits.
Fox dit que AssemblyAI compte désormais des « centaines » de clients payants parmi ses plus de 10 000 utilisateurs. Depuis le début de 2022, la base d’utilisateurs a été multipliée par 3 tandis que les revenus – que Fox a refusé de divulguer – ont été multipliés par 3.
« [We’re] traitant des millions d’appels d’API chaque jour », a déclaré Fox. « Nous prévoyons de multiplier par 3 notre équipe de recherche sur l’IA au cours des six prochains mois et d’investir des millions de dollars dans du matériel GPU pour former des modèles d’IA plus grands et plus complexes. cela poussera l’enveloppe.
Fox pense que la croissance positionnera bien AssemblyAI pour l’année à venir, quels que soient les vents contraires qu’ils pourraient apporter. À une époque où les licenciements deviennent fréquents et où le financement est difficile à trouver, il dit que AssemblyAI inversera la tendance en doublant presque la taille de son équipe de 52 personnes d’ici la fin de l’année.
«Nous avions à peine plongé dans notre financement de série A, que nous avons clôturé il y a quelques mois à peine en février auprès d’Accel, et nous n’avons pas activement collecté de fonds. Mais nous avions été en contact avec Rebecca [Liu-Doyle] d’Insight pendant un certain temps, et j’ai eu l’impression qu’elle, Insight dans son ensemble, plus le capital supplémentaire, nous aiderait vraiment [spur] notre croissance encore plus loin », a déclaré Fox. « UNAu fur et à mesure que le marché se déverrouille, nous devons être en mesure à la fois de nous établir comme le fournisseur dominant dans cet espace et de répondre aux attentes croissantes des clients, avec des modèles d’IA plus précis qui peuvent prendre en charge les fonctionnalités et les produits qu’ils créent.