Twelve Labs crée des modèles capables de comprendre les vidéos en profondeur

L’IA génératrice de texte est une chose. Mais les modèles d’IA qui comprennent les images ainsi que le texte peuvent débloquer de nouvelles applications puissantes.

Prenez, par exemple, Twelve Labs. La startup basée à San Francisco forme des modèles d’IA pour – comme le dit le co-fondateur et PDG Jae Lee – « résoudre des problèmes complexes d’alignement du langage vidéo ».

« Twelve Labs a été fondé… créer une infrastructure pour la compréhension vidéo multimodale, le premier effort étant la recherche sémantique – ou « CTRL+F pour les vidéos », » Lee a déclaré à TechCrunch dans une interview par courrier électronique. « Le La vision de Twelve Labs est d’aider les développeurs à créer des programmes capables de voir, d’écouter et de comprendre le monde comme nous.

Les modèles de Twelve Labs tentent de mapper le langage naturel à ce qui se passe dans une vidéo, y compris les actions, les objets et les sons de fond, permettant aux développeurs de créer des applications capables de rechercher dans les vidéos, de classer les scènes et d’extraire des sujets de ces vidéos, de résumer et de diviser automatiquement la vidéo. clips en chapitres, et plus encore.

Lee affirme que la technologie de Twelve Labs peut piloter des choses comme l’insertion d’annonces et la modération de contenu – par exemple, déterminer quelles vidéos montrant des couteaux sont violentes ou pédagogiques. Il peut également être utilisé pour l’analyse des médias, a ajouté Lee, et pour générer automatiquement des bandes-annonces – ou des titres et balises d’articles de blog – à partir de vidéos.

J’ai interrogé Lee sur le potentiel de biais de ces modèles, étant donné qu’il est scientifiquement bien établi que les modèles amplifient les biais dans les données sur lesquelles ils sont formés. Par exemple, former un modèle de compréhension vidéo principalement sur des extraits d’actualités locales – qui passent souvent beaucoup de temps à couvrir la criminalité dans un manière sensationnaliste et racialisée – pourrait amener le modèle à apprendre des schémas racistes et sexistes.

Lee affirme que Twelve Labs s’efforce de respecter les préjugés internes et les mesures « d’équité » pour ses modèles avant de les publier, et que la société prévoit de publier à l’avenir des références et des ensembles de données liés à l’éthique des modèles. Mais il n’avait rien à partager au-delà de cela.

Maquette d’API pour affiner le modèle afin de mieux fonctionner avec le contenu lié aux salades. Crédits images : Douze laboratoires

« En ce qui concerne la différence entre notre produit et les grands modèles linguistiques [like ChatGPT], le nôtre est spécifiquement formé et conçu pour traiter et comprendre la vidéo, en intégrant de manière holistique les composants visuels, audio et vocaux dans les vidéos », a déclaré Lee. « Nous avons vraiment repoussé les limites techniques de ce qui est possible en matière de compréhension vidéo. »

Google développe un modèle multimodal similaire pour la compréhension des vidéos appelé MUM, que l’entreprise utilise pour alimenter les recommandations vidéo dans la recherche Google et YouTube. Au-delà de MUM, Google, ainsi que Microsoft et Amazon, proposent des services basés sur l’IA au niveau API qui reconnaissent les objets, les lieux et les actions dans les vidéos et extraient de riches métadonnées au niveau de l’image.

Mais Lee affirme que Twelve Labs se différencie à la fois par la qualité de ses modèles et par les fonctionnalités de réglage fin de la plateforme, qui permettent aux clients d’automatiser les modèles de la plateforme avec leurs propres données pour une analyse vidéo « spécifique à un domaine ».

Du côté des modèles, Twelve Labs dévoile aujourd’hui Pegasus-1, un nouveau modèle multimodal qui comprend une gamme d’invites liées à l’analyse vidéo entière. Par exemple, Pegasus-1 peut être invité à générer un long rapport descriptif sur une vidéo ou simplement quelques faits saillants avec horodatage.

« Les entreprises reconnaissent le potentiel d’exploitation de leurs vastes données vidéo pour de nouvelles opportunités commerciales… Cependant, les capacités limitées et simplistes des modèles d’IA vidéo conventionnels ne suffisent souvent pas à répondre à la compréhension complexe requise pour la plupart des cas d’utilisation commerciale », a déclaré Lee. « En tirant parti de puissants modèles de base de compréhension vidéo multimodale, les entreprises peuvent atteindre une compréhension vidéo au niveau humain sans analyse manuelle. »

Depuis le lancement en version bêta privée début mai, la base d’utilisateurs de Twelve Labs est passée à 17 000 développeurs, affirme Lee. Et l’entreprise travaille désormais avec un certain nombre d’entreprises – on ne sait pas exactement combien ; Lee ne dirait rien – dans des secteurs tels que le sport, les médias et le divertissement, l’apprentissage en ligne et la sécurité, y compris la NFL.

Twelve Labs continue également de collecter des fonds – et constitue une partie importante de toute entreprise en démarrage. Aujourd’hui, la société a annoncé avoir clôturé un cycle de financement stratégique de 10 millions de dollars auprès de Nvidia, Intel et Samsung Next, portant le total levé à 27 millions de dollars.

« Ce nouvel investissement concerne des partenaires stratégiques qui peuvent accélérer notre entreprise en matière de recherche (informatique), de produits et de distribution », a déclaré Lee. «C’est le carburant d’une innovation continue, basée sur les recherches de notre laboratoire, dans le domaine de la compréhension vidéo afin que nous puissions continuer à proposer les modèles les plus puissants aux clients, quels que soient leurs cas d’utilisation… Nous faisons avancer l’industrie de manière à ce que libérer les entreprises pour qu’elles puissent faire des choses incroyables.

A lire également