Twelve Labs décroche 12 millions de dollars pour une IA qui comprend le contexte des vidéos

Pour Jae Lee, data scientist de formation, cela n’a jamais eu de sens que la vidéo – qui est devenue une partie énorme de nos vies, avec la montée en puissance de plateformes comme TikTok, Vimeo et YouTube – était difficile à rechercher en raison des barrières techniques posées par la compréhension du contexte. La recherche des titres, des descriptions et des balises des vidéos était toujours assez simple, ne nécessitant pas plus qu’un algorithme de base. Mais chercher dans les vidéos pour des moments et des scènes spécifiques dépassaient de loin les capacités de la technologie, en particulier si ces moments et ces scènes n’étaient pas étiquetés de manière évidente.

Pour résoudre ce problème, Lee, aux côtés d’amis de l’industrie technologique, a créé un service cloud pour la recherche et la compréhension de vidéos. Il est devenu Twelve Labs, qui a ensuite levé 17 millions de dollars en capital-risque – dont 12 millions de dollars provenaient d’un cycle d’extension de démarrage qui s’est terminé aujourd’hui. Radical Ventures a dirigé l’extension avec la participation d’Index Ventures, de WndrCo, de Spring Ventures, du PDG de Weights & Biases, Lukas Biewald et d’autres, a déclaré Lee à TechCrunch dans un e-mail.

« La vision de Twelve Labs est d’aider les développeurs à créer des programmes qui peuvent voir, écouter et comprendre le monde comme nous le faisons en leur donnant l’infrastructure de compréhension vidéo la plus puissante », a déclaré Lee.

Une démo des capacités de la plateforme Twelve Labs. Crédits image : Douze laboratoires

Twelve Labs, qui est actuellement en version bêta fermée, utilise l’IA pour tenter d’extraire des « informations riches » de vidéos telles que le mouvement et les actions, les objets et les personnes, le son, le texte à l’écran et la parole pour identifier les relations entre eux. La plate-forme convertit ces différents éléments en représentations mathématiques appelées « vecteurs » et forme des « connexions temporelles » entre les images, permettant des applications telles que la recherche de scènes vidéo.

« Dans le cadre de la réalisation de la vision de l’entreprise d’aider les développeurs à créer des applications vidéo intelligentes, l’équipe de Twelve Labs construit des « modèles de base » pour la compréhension de la vidéo multimodale », a déclaré Lee. « Les développeurs pourront accéder à ces modèles via une suite d’API, effectuant non seulement une recherche sémantique, mais également d’autres tâches telles que la ‘chaptérisation’ vidéo longue, la génération de résumés et les questions et réponses vidéo. »

Google adopte une approche similaire à la compréhension vidéo avec son système MUM AI, que l’entreprise utilise pour alimenter les recommandations vidéo sur Google Search et YouTube en sélectionnant des sujets dans les vidéos (par exemple, « matériaux de peinture acrylique ») en fonction de l’audio, du texte et du visuel. contenu. Mais bien que la technologie puisse être comparable, Twelve Labs est l’un des premiers fournisseurs à la commercialiser ; Google a choisi de garder MUM en interne, refusant de le rendre disponible via une API publique.

Cela étant dit, Google, ainsi que Microsoft et Amazon, proposent des services (par exemple, Google Cloud Video AI, Azure Video Indexer et AWS Rekognition) qui reconnaissent les objets, les lieux et les actions dans les vidéos et extraient des métadonnées riches au niveau de l’image. Il y a aussi Reminiz, une startup française de vision par ordinateur qui prétend être capable d’indexer tout type de vidéo et d’ajouter des balises au contenu enregistré et diffusé en direct. Mais Lee affirme que Twelve Labs est suffisamment différencié, en partie parce que sa plate-forme permet aux clients d’affiner l’IA à des catégories spécifiques de contenu vidéo.

Maquette d’API pour affiner le modèle afin qu’il fonctionne mieux avec le contenu lié à la salade. Crédits image : Douze laboratoires

« Ce que nous avons découvert, c’est que les produits d’IA étroits conçus pour détecter des problèmes spécifiques présentent une grande précision dans leurs scénarios idéaux dans un cadre contrôlé, mais ne s’adaptent pas aussi bien aux données désordonnées du monde réel », a déclaré Lee. « Ils agissent davantage comme un système basé sur des règles et n’ont donc pas la capacité de généraliser lorsque des écarts se produisent. Nous voyons également cela comme une limitation enracinée dans le manque de compréhension du contexte. La compréhension du contexte est ce qui donne aux humains la capacité unique de faire des généralisations à travers des situations apparemment différentes dans le monde réel, et c’est là que Twelve Labs est le seul.

Au-delà de la recherche, Lee dit que la technologie de Twelve Labs peut conduire des choses comme l’insertion d’annonces et la modération de contenu, en déterminant intelligemment, par exemple, quelles vidéos montrant des couteaux sont violentes par rapport à instructives. Il peut également être utilisé pour l’analyse des médias et les commentaires en temps réel, dit-il, et pour générer automatiquement des bobines de surbrillance à partir de vidéos.

Un peu plus d’un an après sa création (mars 2021), Twelve Labs a des clients payants – Lee ne révélerait pas combien exactement – et un contrat pluriannuel avec Oracle pour former des modèles d’IA à l’aide de l’infrastructure cloud d’Oracle. Pour l’avenir, la startup prévoit d’investir dans le développement de sa technologie et l’expansion de son équipe. (Lee a refusé de révéler la taille actuelle de l’effectif de Twelve Labs, mais les données de LinkedIn montrent qu’il s’agit d’environ 18 personnes.)

« Pour la plupart des entreprises, malgré l’énorme valeur qui peut être obtenue grâce à de grands modèles, cela n’a vraiment aucun sens pour eux de former, d’exploiter et de maintenir ces modèles eux-mêmes. En tirant parti d’une plate-forme Twelve Labs, toute organisation peut tirer parti de puissantes capacités de compréhension vidéo avec seulement quelques appels d’API intuitifs », a déclaré Lee. « La direction future de l’innovation en IA se dirige directement vers la compréhension vidéo multimodale, et Twelve Labs est bien placé pour repousser encore plus loin les limites en 2023. »

A lire également

Start-up

6 produits innovants de startups kid tech à offrir à vos enfants

ParL'équipe rédactionnelle 1 décembre 20231 décembre 2023

Cette liste comprend des cadeaux éducatifs, des applications qui stimulent la créativité et bien d’autres choses qui vont au-delà du cadeau technologique habituel pour les enfants. Quand ça vient Aux cadeaux, il peut être difficile de choisir celui qui convient à vos enfants, d’autant plus qu’il y a tellement de jouets parmi lesquels choisir. Si…

Start-up

Sealed achète la start-up de capteurs InfiSense pour alimenter les services d’économie d’énergie

ParL'équipe rédactionnelle 14 janvier 202314 janvier 2023

Sealed a construit une entreprise autour de la prévision de la consommation d’énergie et de l’incitation des propriétaires à abandonner les combustibles fossiles. Donc, naturellement, la première acquisition de l’entreprise est une startup qui suit l’énergie à un niveau granulaire. Sealed n’a pas divulgué les termes de l’accord, mais a déclaré dans un communiqué que…

Start-up

Helios veut apprivoiser le chaos du développement des microservices

ParL'équipe rédactionnelle 30 juin 20229 octobre 2022

Hélios, une startup basée à Tel Aviv qui souhaite permettre aux développeurs de comprendre, de dépanner et de tester plus facilement leurs systèmes distribués pendant la phase de développement, a annoncé aujourd’hui sa disponibilité générale et qu’elle a levé un tour de table de 5 millions de dollars co-dirigé par Entrée Capital et Amiti VC….

Start-up

Demandez à Sophie : Puis-je obtenir un visa O-1A pour contourner le processus H-1B ?

ParL'équipe rédactionnelle 14 septembre 202314 septembre 2023

Sophie, auteure à succès Alcorn, avocat et fondateur d’Alcorn Immigration Law dans la Silicon Valley, en Californie, est un avocat spécialisé certifié primé en droit de l’immigration et de la nationalité par le Conseil de spécialisation juridique du barreau d’État. Sophie est passionnée par le dépassement des frontières, l’expansion des opportunités et la connexion du…

Start-up

The Browser Company lève 50 millions de dollars pour une valorisation de 550 millions de dollars

ParL'équipe rédactionnelle 21 mars 202421 mars 2024

The Browser Company, qui fabrique le navigateur Arc, a levé 50 millions de dollars lors d'un tour de table mené par Pace Capital pour une valorisation de 550 millions de dollars, a appris TechCrunch en exclusivité. Le responsable du storytelling de l'entreprise, Nashilu Mouen, a confirmé l'investissement à TechCrunch. « Aujourd'hui plus que jamais, nous…

Start-up

Master class TC Startup Battlefield avec Flourish Ventures : Définition de l’adéquation produit-marché à un stade précoce

ParL'équipe rédactionnelle 5 octobre 20235 octobre 2023

Chaque entreprise a besoin pour comprendre comment créer un produit collant, et identifier la place de votre produit sur le marché est crucial pour une stratégie qui mène à une offre qui fidélise les clients. Cependant, comprendre tout cela peut être très difficile, surtout si vous êtes un entrepreneur nouveau dans le jeu. Chaque année,…