Les anciens Googleurs construisent une infrastructure pour aider les entreprises à comprendre leurs données vidéo

Les entreprises génèrent plus de vidéos que jamais. Des années d'archives de diffusion aux milliers de caméras de magasin et aux innombrables heures de séquences de production, la plupart restent inutilisées sur les serveurs, sans surveillance ni analyse. Il s’agit de données sombres : une ressource massive et inexploitée que les entreprises collectent automatiquement mais qui n’utilisent presque jamais de manière significative.

Pour résoudre le problème, Aza Kai (PDG) et Hiraku Yanagita (COO), deux anciens Googleurs qui ont passé près d'une décennie à travailler ensemble chez Google Japon, ont décidé de créer leur propre solution. Le duo a cofondé InfiniMind, une startup basée à Tokyo développant une infrastructure qui convertit des pétaoctets de vidéo et d'audio non visionnés en données commerciales structurées et interrogeables.

« Mon co-fondateur, qui a passé une décennie à diriger des solutions de marque et de données chez Google Japon, et j'ai vu ce point d'inflexion arriver alors que nous étions encore chez Google », a déclaré Kai. En 2024, la technologie avait mûri et la demande du marché était devenue suffisamment claire pour que les cofondateurs se sentent obligés de créer eux-mêmes l’entreprise, a-t-il ajouté.

Kai, qui a précédemment travaillé chez Google Japon dans les domaines du cloud, de l'apprentissage automatique, des systèmes publicitaires et des modèles de recommandation vidéo et a ensuite dirigé des équipes de science des données, a expliqué que les solutions actuelles imposent un compromis. Les approches antérieures pouvaient étiqueter les objets dans des images individuelles, mais elles ne pouvaient pas suivre les récits, comprendre la causalité ou répondre à des questions complexes sur le contenu vidéo. Pour les clients disposant de décennies d’archives de diffusion et de pétaoctets de séquences, même les questions les plus élémentaires sur leur contenu restaient souvent sans réponse.

Ce qui a vraiment changé, ce sont les progrès des modèles de langage de vision entre 2021 et 2023. C'est à ce moment-là que l'IA vidéo a commencé à aller au-delà du simple marquage d'objets, a noté Kai. La baisse des coûts des GPU et les gains de performances annuels d'environ 15 à 20 % au cours de la dernière décennie ont aidé, mais le plus important était la capacité jusqu'à récemment, les modèles ne pouvaient tout simplement pas faire le travail, a-t-il déclaré à TechCrunch.

InfiniMind a récemment obtenu un financement de démarrage de 5,8 millions de dollars, dirigé par UTEC et rejoint par CX2, Headline Asia, Chiba Dojo et un chercheur en IA chez a16z Scout.. La société délocalise son siège social aux États-Unis, tout en continuant d'exploiter un bureau au Japon. Le Japon a fourni le banc d'essai parfait : un matériel solide, des ingénieurs talentueux et un écosystème de startups favorable., permettant à l'équipe d'affiner sa technologie auprès de clients exigeants avant de se mondialiser.

Son premier produit, TV Pulse, a été lancé au Japon en avril 2025. La plate-forme basée sur l'IA analyse le contenu télévisuel en temps réel, aidant les entreprises de médias et de vente au détail à « suivre l'exposition des produits, la présence de la marque, le sentiment des clients et l'impact des relations publiques », selon la startup. Après des programmes pilotes avec de grands diffuseurs et agences, elle compte déjà des clients payants, notamment des grossistes et des sociétés de médias.

Désormais, InfiniMind est prêt pour le marché international. Son produit phare, DeepFrame, une plate-forme d'intelligence vidéo longue durée capable de traiter 200 heures de séquences pour identifier des scènes, des intervenants ou des événements spécifiques, devrait sortir en version bêta en mars, suivie d'un lancement complet en avril 2026, a déclaré Kai.

crédits image : infinimind

L’espace d’analyse vidéo est très fragmenté. Des sociétés telles que TwelveLabs fournissent des API de compréhension vidéo à usage général pour un large éventail d'utilisateurs, notamment les consommateurs, les prosommateurs et les entreprises, a déclaré Kai, tandis qu'InfiniMind se concentre spécifiquement sur les cas d'utilisation en entreprise, notamment la surveillance, la sûreté, la sécurité et l'analyse du contenu vidéo pour des informations plus approfondies.

« Notre solution ne nécessite aucun code ; les clients apportent leurs données et notre système les traite, fournissant des informations exploitables », a déclaré Kai. « Nous intégrons également la compréhension de l'audio, du son et de la parole, pas seulement les éléments visuels. Notre système peut gérer une durée de vidéo illimitée et la rentabilité est un différenciateur majeur. La plupart des solutions existantes donnent la priorité à la précision ou à des cas d'utilisation spécifiques, mais ne résolvent pas les problèmes de coûts. »

Le financement de démarrage aidera l'équipe à continuer de développer le modèle DeepFrame, à étendre l'infrastructure d'ingénierie, à embaucher davantage d'ingénieurs et à atteindre des clients supplémentaires au Japon et aux États-Unis.

« C'est un espace passionnant, l'une des voies vers l'AGI », a déclaré Kai. « Comprendre l'intelligence vidéo générale, c'est comprendre la réalité. Les applications industrielles sont importantes, mais notre objectif ultime est de repousser les limites de la technologie pour mieux comprendre la réalité et aider les humains à prendre de meilleures décisions. »

A lire également