Les plateformes d'étiquetage et d'annotation n'attirent peut-être pas autant l'attention que les nouveaux modèles d'IA générative. Mais elles sont essentielles. Les données sur lesquelles de nombreux modèles s'entraînent doivent être étiquetées, sinon les modèles ne seraient pas en mesure d'interpréter ces données pendant le processus d'entraînement.
L’annotation est une tâche de grande envergure, qui nécessite des milliers, voire des millions d’annotations pour les ensembles de données plus volumineux et plus sophistiqués utilisés. Pour alléger cette tâche, Eric Landau et Ulrik Hansen ont fondé Encord, qu’ils décrivent comme une plateforme de « développement de données » destinée aux entreprises qui gèrent et préparent leurs données pour les modèles d’IA.
L'entreprise dispose désormais de 30 millions de dollars supplémentaires dans ses caisses grâce à une levée de fonds de série C menée par Next47. Portant le trésor de guerre d'Encord à 50 millions de dollars, le nouveau capital servira à doubler la taille des équipes de recherche sur les produits, l'ingénierie et l'IA d'Encord au cours des six prochains mois et à agrandir les bureaux de l'entreprise à San Francisco, a déclaré Landau à TechCrunch.
« D’ici la fin de l’année, nous prévoyons de faire passer notre équipe de 70 à 100 employés », a-t-il ajouté. « Nous disposons désormais d’un double siège social à Londres et à San Francisco, avec des collaborateurs répartis dans le monde entier. »
Landau a commencé à travailler sur les systèmes de big data en menant des recherches sur la physique des particules alors qu'il était étudiant de premier cycle à Stanford. Hensen a travaillé sur les marchés mondiaux chez JP Morgan, où il s'occupait des produits dérivés des marchés émergents.
Hensen explique que l'idée d'Encord lui est venue alors qu'il travaillait sur des projets d'IA à forte intensité de données dans le cadre d'un master en informatique à l'Imperial College de Londres. Frustré par le temps que prennent la conservation et l'étiquetage des données, Hensen a rencontré Landau, qu'il connaissait du milieu entrepreneurial londonien, pour discuter des moyens de résoudre ensemble le problème des données.
« En combinant l’expertise de Hensen en matière de développement de logiciels avec mes connaissances en matière de recherche quantitative pour automatiser le développement de données, nous avons lancé la première itération du produit Encord lors du Y Combinator au printemps 2021 », a déclaré Landau à TechCrunch. « La plateforme Encord fournit aux entreprises des outils pour préparer leurs données à l’IA et évaluer l’efficacité avec laquelle ces données soutiennent leurs modèles. »
Alors que le marché de l’annotation et de l’étiquetage des données devrait atteindre 3,6 milliards de dollars d’ici 2027, Encord est l’un des nombreux fournisseurs en compétition pour décrocher des contrats. Outre le sujet qui fait débat – Scale AI –, il existe des startups comme Datasaur, qui permet aux clients de créer automatiquement des modèles à partir d’ensembles d’étiquettes ; Heartex, qui construit une plateforme d’étiquetage de données open source ; et le fournisseur d’outils d’annotation de données Dataloop.
Encord se distingue, selon Landau, par la polyvalence de sa plateforme.
Grâce à Encord, les équipes peuvent explorer et visualiser des ensembles de données (y compris des ensembles de données d'images, de vidéos et de voix) extraits de stockages cloud privés et publics et comparer les performances de différents modèles formés sur les mêmes ensembles. La plateforme tente de détecter les problèmes de précision des modèles et de suggérer des données de formation supplémentaires qui pourraient aider à corriger ces problèmes.
« Contrairement aux solutions fragmentées qui ne traitent que des parties spécifiques de votre pile de données, Encord vous permet de consolider tous vos flux de données sur une seule plateforme », a déclaré Landau. « Grâce à cette consolidation, les entreprises bénéficient d'une traçabilité qui met en lumière la « boîte noire » souvent opaque de l'IA, aidant à comprendre pourquoi un modèle prend des décisions spécifiques. »
La stratégie d'Encord semble bien fonctionner jusqu'à présent. L'entreprise compte 120 clients, dont Philips, la start-up d'intelligence artificielle Synthesia et les prestataires de soins de santé Cedars-Sinai et Northwell Health, ainsi que des contrats avec des agences militaires et gouvernementales non identifiées. Landau affirme qu'Encord a multiplié ses revenus par quatre au cours de l'année dernière et qu'elle pourrait afficher un flux de trésorerie positif d'ici 2025 si elle ne continuait pas à augmenter ses effectifs.
« Nous ressentons le contraire d’un ralentissement », a déclaré M. Landau. « Cela étant dit, nous sommes conscients des conditions générales du marché et avons adopté une approche prudente dans le déploiement des capitaux. »
Parmi les autres participants au nouveau cycle de financement figuraient Y Combinator, CRV et Crane Venture Partners.