Twelve Labs décroche 12 millions de dollars pour une IA qui comprend le contexte des vidéos

Pour Jae Lee, data scientist de formation, cela n’a jamais eu de sens que la vidéo – qui est devenue une partie énorme de nos vies, avec la montée en puissance de plateformes comme TikTok, Vimeo et YouTube – était difficile à rechercher en raison des barrières techniques posées par la compréhension du contexte. La recherche des titres, des descriptions et des balises des vidéos était toujours assez simple, ne nécessitant pas plus qu’un algorithme de base. Mais chercher dans les vidéos pour des moments et des scènes spécifiques dépassaient de loin les capacités de la technologie, en particulier si ces moments et ces scènes n’étaient pas étiquetés de manière évidente.

Pour résoudre ce problème, Lee, aux côtés d’amis de l’industrie technologique, a créé un service cloud pour la recherche et la compréhension de vidéos. Il est devenu Twelve Labs, qui a ensuite levé 17 millions de dollars en capital-risque – dont 12 millions de dollars provenaient d’un cycle d’extension de démarrage qui s’est terminé aujourd’hui. Radical Ventures a dirigé l’extension avec la participation d’Index Ventures, de WndrCo, de Spring Ventures, du PDG de Weights & Biases, Lukas Biewald et d’autres, a déclaré Lee à TechCrunch dans un e-mail.

« La vision de Twelve Labs est d’aider les développeurs à créer des programmes qui peuvent voir, écouter et comprendre le monde comme nous le faisons en leur donnant l’infrastructure de compréhension vidéo la plus puissante », a déclaré Lee.

Une démo des capacités de la plateforme Twelve Labs. Crédits image : Douze laboratoires

Twelve Labs, qui est actuellement en version bêta fermée, utilise l’IA pour tenter d’extraire des « informations riches » de vidéos telles que le mouvement et les actions, les objets et les personnes, le son, le texte à l’écran et la parole pour identifier les relations entre eux. La plate-forme convertit ces différents éléments en représentations mathématiques appelées « vecteurs » et forme des « connexions temporelles » entre les images, permettant des applications telles que la recherche de scènes vidéo.

« Dans le cadre de la réalisation de la vision de l’entreprise d’aider les développeurs à créer des applications vidéo intelligentes, l’équipe de Twelve Labs construit des « modèles de base » pour la compréhension de la vidéo multimodale », a déclaré Lee. « Les développeurs pourront accéder à ces modèles via une suite d’API, effectuant non seulement une recherche sémantique, mais également d’autres tâches telles que la ‘chaptérisation’ vidéo longue, la génération de résumés et les questions et réponses vidéo. »

Google adopte une approche similaire à la compréhension vidéo avec son système MUM AI, que l’entreprise utilise pour alimenter les recommandations vidéo sur Google Search et YouTube en sélectionnant des sujets dans les vidéos (par exemple, « matériaux de peinture acrylique ») en fonction de l’audio, du texte et du visuel. contenu. Mais bien que la technologie puisse être comparable, Twelve Labs est l’un des premiers fournisseurs à la commercialiser ; Google a choisi de garder MUM en interne, refusant de le rendre disponible via une API publique.

Cela étant dit, Google, ainsi que Microsoft et Amazon, proposent des services (par exemple, Google Cloud Video AI, Azure Video Indexer et AWS Rekognition) qui reconnaissent les objets, les lieux et les actions dans les vidéos et extraient des métadonnées riches au niveau de l’image. Il y a aussi Reminiz, une startup française de vision par ordinateur qui prétend être capable d’indexer tout type de vidéo et d’ajouter des balises au contenu enregistré et diffusé en direct. Mais Lee affirme que Twelve Labs est suffisamment différencié, en partie parce que sa plate-forme permet aux clients d’affiner l’IA à des catégories spécifiques de contenu vidéo.

Maquette d’API pour affiner le modèle afin qu’il fonctionne mieux avec le contenu lié à la salade. Crédits image : Douze laboratoires

« Ce que nous avons découvert, c’est que les produits d’IA étroits conçus pour détecter des problèmes spécifiques présentent une grande précision dans leurs scénarios idéaux dans un cadre contrôlé, mais ne s’adaptent pas aussi bien aux données désordonnées du monde réel », a déclaré Lee. « Ils agissent davantage comme un système basé sur des règles et n’ont donc pas la capacité de généraliser lorsque des écarts se produisent. Nous voyons également cela comme une limitation enracinée dans le manque de compréhension du contexte. La compréhension du contexte est ce qui donne aux humains la capacité unique de faire des généralisations à travers des situations apparemment différentes dans le monde réel, et c’est là que Twelve Labs est le seul.

Au-delà de la recherche, Lee dit que la technologie de Twelve Labs peut conduire des choses comme l’insertion d’annonces et la modération de contenu, en déterminant intelligemment, par exemple, quelles vidéos montrant des couteaux sont violentes par rapport à instructives. Il peut également être utilisé pour l’analyse des médias et les commentaires en temps réel, dit-il, et pour générer automatiquement des bobines de surbrillance à partir de vidéos.

Un peu plus d’un an après sa création (mars 2021), Twelve Labs a des clients payants – Lee ne révélerait pas combien exactement – et un contrat pluriannuel avec Oracle pour former des modèles d’IA à l’aide de l’infrastructure cloud d’Oracle. Pour l’avenir, la startup prévoit d’investir dans le développement de sa technologie et l’expansion de son équipe. (Lee a refusé de révéler la taille actuelle de l’effectif de Twelve Labs, mais les données de LinkedIn montrent qu’il s’agit d’environ 18 personnes.)

« Pour la plupart des entreprises, malgré l’énorme valeur qui peut être obtenue grâce à de grands modèles, cela n’a vraiment aucun sens pour eux de former, d’exploiter et de maintenir ces modèles eux-mêmes. En tirant parti d’une plate-forme Twelve Labs, toute organisation peut tirer parti de puissantes capacités de compréhension vidéo avec seulement quelques appels d’API intuitifs », a déclaré Lee. « La direction future de l’innovation en IA se dirige directement vers la compréhension vidéo multimodale, et Twelve Labs est bien placé pour repousser encore plus loin les limites en 2023. »

A lire également