Deasie veut classer et filtrer les données pour rendre l'IA générative plus fiable

Deasie, une startup développant des outils pour donner aux entreprises un plus grand contrôle sur les modèles d’IA générateurs de texte, a annoncé aujourd’hui avoir levé 2,9 millions de dollars lors d’un cycle de financement de démarrage avec la participation de Y Combinator, General Catalyst, RTP Global, Rebel Fund et J12 Ventures.

Les fondateurs de Deasie, Reece Griffiths, Mikko Peiponen et Leo Platzer, ont déjà construit ensemble des outils de gouvernance des données chez McKinsey. Chez McKinsey, ils déclarent avoir observé des « problèmes importants » – et des opportunités – autour de la gouvernance des données d’entreprise, ainsi que la manière spécifique dont ces problèmes pourraient avoir un impact sur la capacité d’une entreprise à adopter l’IA générative.

Ce ne sont pas les seuls. Une récente enquête d’IDC auprès de plus de 900 dirigeants de grandes entreprises a révélé que 86 % d’entre eux conviennent qu’une plus grande gouvernance est nécessaire pour garantir la « qualité et l’intégrité » des informations génératives sur l’IA. Entre-temps, seulement 30 % des personnes interrogées ont déclaré qu’elles se sentaient « extrêmement préparées ou prêtes » à tirer parti de l’IA générative aujourd’hui.

Dans le but de rendre les modèles d’IA génératifs – en particulier les grands modèles de langage (LLM) sur le modèle du GPT-4 d’OpenAI – plus fiables, l’équipe Deasie a construit un produit qui se connecte aux données non structurées de l’entreprise telles que les documents, les rapports et les e-mails pour les catégoriser automatiquement. en termes de contenu et de sensibilité.

Par exemple, Deasie peut étiqueter automatiquement un rapport comme « informations personnelles identifiables » ou « informations confidentielles » et indiquer qu’il s’agit de la troisième version du rapport. Ou encore, il peut étiqueter une fiche technique comme « informations exclusives » et souligner que la fiche a des droits d’accès restreints. Les clients de Deasie définissent les balises et les étiquettes pour refléter leur approche de classification et d’organisation des données, a déclaré Griffiths à TechCrunch par courrier électronique, qui « enseigne » aux algorithmes de Deasie comment classer les données futures.

Une fois les documents balisés automatiquement par Deasie, la plateforme utilise la bibliothèque de balises résultante pour évaluer les données correspondantes en termes de pertinence et d’importance globales. Ensuite, sur la base de cette évaluation, il prend une décision quant aux données à « alimenter » un modèle de génération de texte.

« Les entreprises disposent d’énormes volumes de données non structurées qui ont rarement reçu une attention particulière du point de vue de la gouvernance. » Griffiths dit. « La probabilité que les modèles de langage récupèrent des réponses qui n’ont pas de sens ou qui sont exposées à des informations sensibles évolue avec le volume de données. Deasie est une plate-forme intelligente qui filtre des milliers de documents dans une entreprise et garantit que les données introduites dans les applications d’IA générative sont pertinentes, de haute qualité et sûres à utiliser.

Deasie est une plateforme intrigante, bien sûr. L’idée de limiter un LLM aux données vérifiées n’est pas une mauvaise idée, en particulier si l’on considère les conséquences de laisser les LLM se déchaîner sur des informations obsolètes et contradictoires. Mais je me demande avec quelle cohérence les algorithmes de Deasie classent les données et à quelle fréquence la plateforme commet des erreurs en évaluant l’importance d’un document.

Quelle que soit la démonstration présentée par Deasie, les entreprises doivent répondre à ces questions à au moins quelques-unes de leurs satisfactions. Griffiths affirme que Deasie – qui ne compte que trois employés – a signé un accord pour son premier projet pilote avec une entreprise « multimilliardaire » aux États-Unis et dispose d’un portefeuille de plus de 30 entreprises clientes, dont cinq sociétés Fortune 500.

« D’autres produits se sont concentrés soit sur l’angle strict de la « sécurité des données », soit sur l’angle de la « gouvernance des données pour les données structurées » de la gouvernance LLM », a déclaré Deasie. « Ce qui n’existait pas, c’était une bonne approche pour mesurer la qualité et la pertinence des données pour les données non structurées… NPersonne ne résolvait directement le problème de faire correspondre chaque cas d’utilisation de l’IA générative avec le « meilleur » ensemble de données possible. Deasie a développé de nouvelles approches dans ce domaine.

Au cours des prochains mois, Deasie prévoit d’agrandir son équipe d’ingénieurs et de procéder à « plusieurs embauches », en mettant l’accent sur la création de fonctionnalités permettant de se différencier de concurrents tels que Unstructured.io, Scale AI, Collibra et Alation.

A lire également