SuperAnnoter

Des données de haute qualité peuvent être la clé d’une IA de haute qualité. Alors que des études révèlent que la conservation des ensembles de données, plutôt que leur taille, est ce qui affecte réellement les performances d'un modèle d'IA, il n'est pas surprenant que l'accent soit de plus en plus mis sur les pratiques de gestion des ensembles de données. Selon certaines enquêtes, les chercheurs en IA consacrent aujourd’hui une grande partie de leur temps à des tâches de préparation et d’organisation des données.

Les frères Vahan Petrosyan et Tigran Petrosyan ont ressenti la douleur de devoir gérer beaucoup de données lors de la formation des algorithmes à l'université. Vahan est allé jusqu'à créer un outil de gestion de données lors de son doctorat. recherches sur la segmentation d'images.

Quelques années plus tard, Vahan s'est rendu compte que les développeurs – et même les entreprises – seraient heureux de payer pour des outils similaires. Les frères ont donc fondé une entreprise, SuperAnnotate, pour le construire.

« Lors de l'explosion de l'innovation en 2023 autour des modèles et de l'IA multimodale, le besoin d'ensembles de données de haute qualité est devenu plus strict, chaque organisation ayant plusieurs cas d'utilisation nécessitant des données spécialisées », a déclaré Vahan dans un communiqué. «Nous avons vu une opportunité de créer une plate-forme low-code facile à utiliser, comme un couteau suisse pour les données d'entraînement modernes de l'IA.»

SuperAnnotate, dont les clients incluent Databricks et Canva, aide les utilisateurs à créer et à suivre de grands ensembles de données de formation à l'IA. La startup s'est initialement concentrée sur les logiciels d'étiquetage, mais propose désormais des outils pour affiner, itérer et évaluer des ensembles de données.

Crédits images :SuperAnnoter

Avec la plateforme SuperAnnotate, les utilisateurs peuvent connecter des données provenant de sources locales et du cloud pour créer des projets de données sur lesquels ils peuvent collaborer avec leurs coéquipiers. À partir d'un tableau de bord, les utilisateurs peuvent comparer les performances des modèles en fonction des données utilisées pour les entraîner, puis déployer ces modèles dans différents environnements une fois qu'ils sont prêts.

SuperAnnotate permet également aux entreprises d'accéder à un marché de travailleurs issus du crowdsourcing pour les tâches d'annotation de données. Les annotations sont généralement des morceaux de texte indiquant la signification ou des parties de données sur lesquelles les modèles s'entraînent et servent de repères aux modèles, leur « apprenant » à distinguer les choses, les lieux et les idées.

Pour être franc, il existe plusieurs fils de discussion Reddit sur le traitement par SuperAnnotate des annotateurs de données qu'il utilise, et ils ne sont pas flatteurs. Les annotateurs se plaignent de problèmes de communication, d'attentes peu claires et de bas salaires.

Pour sa part, SuperAnnotate affirme payer des tarifs équitables sur le marché et que ses exigences envers les annotateurs ne sortent pas de la norme du secteur. Nous avons demandé à l'entreprise de fournir des informations plus détaillées sur ses pratiques et mettrons à jour cet article si nous recevons une réponse.

Il existe plusieurs concurrents dans le domaine de la gestion des données d'IA, notamment des startups comme Scale AI, Weka et Dataloop. SuperAnnotate, basé à San Francisco, a cependant réussi à tenir le coup, en levant récemment 36 millions de dollars dans le cadre d'un cycle de série B dirigé par Socium Ventures, avec la participation de Nvidia, Databricks Ventures, Play Time Ventures et Defy.vc.

Le nouveau capital, qui porte le total levé par SuperAnnotate à un peu plus de 53 millions de dollars, sera utilisé pour augmenter son équipe actuelle d'environ 100 personnes, pour la R&D de produits et pour accroître la clientèle de SuperAnnotate d'environ 100 entreprises.

« Notre objectif est de créer une plate-forme capable de s'adapter pleinement aux besoins changeants des entreprises et d'offrir une personnalisation approfondie dans le réglage fin des données », a déclaré Vahan.

A lire également