Les modèles d’IA qui comprennent les vidéos ainsi que le texte peuvent débloquer de nouvelles applications puissantes. C'est du moins ce que croit Jae Lee, co-fondateur de Twelve Labs.
Certes, Lee est un peu partial. Twelve Labs forme des modèles d'analyse vidéo pour une gamme de cas d'utilisation. Mais il se peut qu’il y ait quelque chose dans son affirmation.
À l'aide des modèles de Twelve Labs, les utilisateurs peuvent rechercher des moments spécifiques dans les vidéos, résumer des clips ou poser des questions telles que « Quand la personne en chemise rouge est-elle entrée dans le restaurant ? » Il s’agit d’un ensemble puissant de capacités – c’est peut-être la raison pour laquelle la société a attiré de grands bailleurs de fonds, notamment Nvidia, Samsung et Intel.
Recherche vidéo
Pour Lee, data scientist de formation, la recherche de base n'a jamais eu de sens pour la vidéo. Les recherches par mots clés peuvent extraire des titres, des balises et des descriptions, mais ne peuvent pas accéder au contenu réel des clips.
« La vidéo est le média qui connaît la croissance la plus rapide – et qui consomme le plus de données -, mais la plupart des organisations ne consacreront pas de ressources humaines à l'élimination de toutes leurs archives vidéo », a déclaré Lee à TechCrunch. « Même si vous essayiez de marquer manuellement, cela ne résoudrait pas le problème. Trouver un moment ou un angle spécifique dans une vidéo peut être comme chercher une aiguille dans une botte de foin. »
Après avoir échoué à trouver une meilleure solution, Lee a recruté ses pairs Aiden Lee, SJ Kim, Dave Chung et Soyoung Lee pour en construire une. C'est la genèse de Twelve Labs, qui entraîne des modèles à mapper le texte sur ce qui se passe dans une vidéo, y compris les actions, les objets et les sons de fond.
Des modèles comme Gemini de Google peuvent rechercher des images, et Microsoft et Amazon, entre autres, proposent des services d'analyse vidéo pour repérer des objets dans des clips. Mais Lee affirme que les produits de Twelve Labs se distinguent par leurs options de personnalisation, qui permettent aux clients d'adapter leurs modèles en utilisant leurs propres données.
« Des entreprises comme OpenAI et Google investissent massivement dans des modèles multimodaux à usage général », a déclaré Lee, « mais ces modèles ne sont pas optimisés pour la vidéo. Notre différenciation réside dans le fait que nous accordons la priorité à la vidéo dès le début… Nous pensons que la vidéo mérite notre seule attention – ce n'est pas un module complémentaire.
Les développeurs peuvent créer des applications sur les modèles Twelve Labs pour effectuer des recherches dans des séquences vidéo et bien plus encore. La technologie de l'entreprise peut piloter des tâches telles que l'insertion d'annonces, la modération de contenu et la génération automatique de bandes-annonces à partir de clips.
Lorsque j'ai parlé avec Lee l'année dernière, j'ai posé des questions sur le potentiel de biais dans les modèles de Twelve Labs. C'est un gros facteur de risque. Une étude de 2021 a révélé que la formation d’un modèle de compréhension vidéo sur des extraits d’actualités locales, qui ont tendance à couvrir la criminalité de manière racialisée, pourrait amener le modèle à apprendre des schémas racistes.
Lee a déclaré à l'époque que Twelve Labs prévoyait de publier des références et des ensembles de données liés à l'éthique des modèles. L’entreprise ne l’a toujours pas fait. Lors de notre récente conversation, Lee m'a assuré que ces outils étaient en route et que Twelve Labs effectuait des tests de biais sur tous ses modèles avant de les publier.
« Nous n'avons pas encore publié de critères formels de partialité parce que nous voulons nous assurer qu'ils sont significatifs, pratiques et exploitables », a-t-il déclaré. « Notre objectif global est de développer des références qui non seulement nous tiennent responsables, mais établissent également une norme dans l'industrie… Jusqu'à ce que nous ayons pleinement atteint cet objectif – et que nous ayons une équipe qui travaille là-dessus – nous travaillons activement à créer l'IA. qui responsabilise les organisations de manière responsable, respecte les libertés civiles des personnes et stimule le changement technologique.
Lee a ajouté que Twelve Labs forme ses modèles sur un mélange de données du domaine public et sous licence, et ne s'approvisionne pas en données client pour la formation.
Mode de croissance
L'analyse vidéo reste au cœur de l'activité de Twelve Labs. Mais, dans un effort pour rester agile, l'entreprise se lance également dans des domaines tels que la recherche « any-to-any » et l'intégration multimodale.
L'un des modèles de Twelve Labs, Marengo, peut rechercher des images et de l'audio en plus de la vidéo, et accepter un enregistrement audio, une image ou un clip vidéo de référence pour aider à guider une recherche.
Ailleurs, la société propose une API, l'API Embed, pour créer des intégrations multimodales de vidéos, de texte, d'images et de fichiers audio. Les intégrations sont des représentations mathématiques qui capturent la signification et les relations entre différents points de données, ce qui les rend utiles pour des applications telles que la détection d'anomalies.
Le portefeuille de produits croissant de Twelve Labs a aidé la startup à sécuriser ses clients dans les domaines de l'entreprise, des médias et du divertissement. Deux partenaires majeurs sont Databricks et Snowflake, qui intègrent tous deux les outils Twelve Labs dans leurs offres.

Databricks a développé une intégration qui permet au client d'invoquer le service d'intégration de Twelve Labs à partir de pipelines de données existants. Snowflake, quant à lui, crée des connecteurs vers les modèles Twelve Labs dans Cortex AI, son service d'IA entièrement géré.
« Nous avons actuellement plus de 30 000 développeurs qui utilisent notre plateforme, allant des individus expérimentant aux grandes entreprises intégrant notre technologie dans leurs flux de travail », a déclaré Lee. « Par exemple, nous avons établi des partenariats avec des municipalités pour des cas d'utilisation tels que la détection des menaces en temps réel, l'amélioration des délais de réponse en cas d'urgence et l'aide à la gestion du trafic. »
En guise de soutien stratégique, Databricks et Snowflake ont investi ce mois-ci dans Twelve Labs par le biais de leurs branches de capital-risque respectives. SK Telecom et Hubspot Ventures se sont joints à nous, aux côtés d'In-Q-Tel, une société de capital-risque à but non lucratif basée à Arlington, en Virginie, qui investit dans des startups soutenant les capacités de renseignement américaines.
Le total des nouveaux investissements s'est élevé à 30 millions de dollars, portant le total levé par Twelve Labs à 107,1 millions de dollars. Lee dit que les bénéfices seront consacrés au développement de produits et à l'embauche.
« Nous sommes dans une position financière très solide, mais nous avons vu une opportunité d'approfondir nos relations stratégiques clés avec des dirigeants qui croient profondément en Twelve Labs », a déclaré Lee. « Nous comptons actuellement 73 employés à temps plein et prévoyons d'importants investissements dans le recrutement dans les domaines de l'ingénierie, de la recherche et du contact client. »
Nouvelle embauche
En parlant d'embauche, Twelve Labs a annoncé jeudi l'ajout d'un président à sa direction : Yoon Kim, ancien CTO de SK Telecom et architecte clé derrière Siri d'Apple. Yoon occupera également le poste de directeur de la stratégie de Twelve Labs, dirigeant le plan d'expansion agressif de la startup.
« Bien qu'il soit inhabituel pour une entreprise de l'âge et du stade de Twelve Labs d'embaucher un président, cette décision témoigne de la demande que nous avons connue », a déclaré Lee, ajoutant que Yoon partagerait son temps entre le siège de Twelve Labs à San Francisco et ses bureaux à Séoul. « Yoon est la personne idéale pour nous aider à exécuter nos activités : il jouera un rôle déterminant dans la croissance future avec des acquisitions clés, l'expansion de notre présence mondiale et l'alignement de nos équipes sur des objectifs ambitieux. »
Lee affirme que l'objectif est de se développer dans de nouveaux secteurs verticaux adjacents, comme l'automobile et la sécurité, au cours des prochaines années. Compte tenu de l’implication d’In-Q-Tel, la sécurité (et éventuellement le travail de défense) semble être un problème ; Lee n'a pas voulu confirmer d'emblée.
« L'investissement d'In-Q-Tel reflète la polyvalence et le potentiel de notre technologie dans de nombreux secteurs, y compris la sécurité nationale », a déclaré Lee. « Nous sommes toujours ouverts à l'exploration d'opportunités dans lesquelles notre technologie peut avoir un impact positif, significatif et responsable, conforme à nos directives éthiques. »
