Envoyer l'IA : extraction de données

Une jeune startup néerlandaise souhaite aider les entreprises à extraire des données provenant de grands volumes de documents complexes où l’exactitude et la sécurité sont primordiales – et elle vient d’obtenir le soutien de Gradient Ventures de Google pour ce faire.

Send AI, comme on appelle la startup, s’attaque à des acteurs historiques établis dans le domaine du traitement de documents tels que UiPath, Abbyy, Rossum et Kofax, avec une plate-forme personnalisable qui permet aux entreprises d’affiner les modèles d’IA pour leur propre extraction de données. besoins.

Par exemple, une entreprise opérant dans un secteur hautement réglementé tel que l’assurance devra probablement traiter une myriade de formats, depuis les fichiers PDF et papier jusqu’aux photos de smartphone prises avec toutes sortes d’orientations et de « bruit » d’arrière-plan. De tels types de données « non structurés » non standard peuvent être assez difficiles à analyser pour les humains, mais une approche entièrement pilotée par la machine peut conduire à des rejets de demandes ou à des remboursements erronés et à des problèmes administratifs à long terme.

En effet, les logiciels de traitement de documents standard sont souvent conçus pour des types de documents plus courants qui recoupent plusieurs secteurs, ce qui les rend inadaptés à certains cas d’utilisation. Avec Send AI, en revanche, les entreprises peuvent former un modèle de vision par ordinateur pour reconnaître des documents spécifiques et un modèle de langage distinct pour extraire et valider les données pertinentes – avec des humains connectés en boucle en cas de doute, pour contrôler et examiner chacun. parcourir une interface Web.

« Cette validation peut être aussi simple que de vérifier si un nombre attendu est réellement un nombre, ou une recherche plus sophistiquée d’un numéro d’enregistrement dans une base de données pour voir s’il y a une correspondance », a déclaré le fondateur et PDG de Send AI, Thom Trentelman, à TechCrunch. « Toute insécurité sera signalée pour examen humain. »

Fondée à Amsterdam en 2021 initialement sous le nom d’Autopilot, Send AI a déjà levé un petit investissement de 100 000 $ auprès d’un fonds d’anciens diplômés universitaires, mais alors qu’elle commence à accélérer les choses, elle a maintenant levé 2,2 millions d’euros supplémentaires (2,4 millions de dollars) dans un pré -une ronde de financement d’amorçage co-dirigée par Gradient Ventures de Google et Keen Venture Partners, avec la participation d’un certain nombre d’investisseurs providentiels issus d’entreprises telles que DeepMind.

Comment ça fonctionne

Les entreprises peuvent accéder au logiciel cloud de Send AI via des API qui canalisent les données des documents envoyés par courrier électronique. Dès réception, Send AI améliore visuellement les documents avant de les envoyer à ses modèles linguistiques pour classification et extraction.

En termes de marché cible, Trentelman affirme que l’entreprise cible considérablement les grandes entreprises, car ce sont elles « qui ont le plus de difficultés avec les documents », même si en réalité, toute entreprise qui traite de gros volumes de documents pourrait trouver une utilité à cette technologie.

Il va peut-être sans dire qu’outre la multitude d’outils de traitement de documents existants déjà sur le marché, Send AI est confronté à une nouvelle génération de startups vendant des services construits sur de nouveaux modèles de langage étendus (LLM) puissants, comme OpenAI le fait avec GPT-X (qui alimente ChatGPT). Mais même si Trentelman concède que de tels produits fonctionnent très bien dans les situations qui nécessitent un score « subjectivement bon », comme le résumé ou la réponse à des questions, où un haut degré de précision est nécessaire sur de gros volumes de documents, c’est une autre histoire.

« Tôt ou tard, vous vous heurterez à des murs avec ces technologies – les gros LLM génériques sont encore imprévisibles, lents et coûteux », a déclaré Trentelman. « Chez Send AI, nous laissons le client créer sa propre solution. »

Sous le capot, Send AI est construit sur des modèles open source plus petits que le client forme d’abord en traitant un petit ensemble de documents à la main, après quoi il est rincé et répété sur de nouveaux documents avec des humains sur place pour apporter des corrections.

En termes de tarification, Send AI facture sur une base basée sur le crédit, les clients payant par étape de traitement. « De cette façon, nous pouvons faire la différence entre le traitement d’un PDF de 50 pages et celui d’un simple extrait de texte », a déclaré Trentelman. « Nos modèles sont bon marché, rapides et fiables, nous pouvons donc les déployer client par client. De cette façon, les clients contrôlent leurs données et leurs performances, c’est pourquoi nous réussissons bien dans les secteurs réglementés tels que l’assurance maladie et le gouvernement.

Contrôle

Send AI affirme que sa technologie séduira les secteurs hautement réglementés en raison du contrôle qu’elle donne aux clients sur leurs données, ce qui peut sembler contre-intuitif étant donné qu’elle est entièrement basée sur le cloud. Cependant, Trentelman souligne comment fonctionne un LLM typique comme OpenAI, vis à vis la façon dont il pourrait mélanger les données de formation de plusieurs clients différents en un seul modèle, ce qui augmente le risque de fuite de données sensibles. C’est précisément pourquoi nous avons vu émerger un grand nombre de startups promettant de protéger les données privées au sein de logiciels propulsés par LLM.

Send AI tente de répondre à ces préoccupations en déployant de petits modèles de transformateurs open source isolés pour chaque client.

« Nous en utilisons une grande variété pour accomplir notre travail : prêts à l’emploi, ils n’impressionnent pas beaucoup, mais une fois formés sur des données de haute qualité, ils deviennent puissants et précis », a déclaré Trentelman.

Ainsi, même si les modèles et les données d’entraînement associées vivent toujours sur le cloud de Send AI, l’utilisation de modèles isolés signifie qu’il peut identifier exactement où se trouvent les données et ainsi les supprimer sur demande. Selon Trentelman, cela suffit à en faire un « candidat préféré » par rapport aux autres fournisseurs, et cela contribue dans une certaine mesure à convaincre les entreprises axées sur la confidentialité des données que les déploiements sur site ne sont pas leur seule option.

« De nos jours, des entreprises plus réglementées autorisent leurs fournisseurs à utiliser le cloud public, à condition qu’ils respectent une longue liste de réglementations », a déclaré Trentelman. « Au départ, nous nous sommes toujours posé la question de savoir si nous pouvions déployer sur site, mais finalement, toutes les entreprises, sauf une, ont opté pour notre offre de cloud public. »

Pour l’instant, Send AI fonctionne en mode bêta privé, même s’il revendique déjà des clients impressionnants, dont le géant de l’assurance Axa. Avec une équipe de sept personnes aujourd’hui, la société prévoit d’utiliser ses nouvelles injections de liquidités pour doubler ses effectifs tout au long de l’année avant un lancement commercial complet.

A lire également