Giskard est une startup française travaillant sur un framework de test open source pour les grands modèles de langage. Il peut alerter les développeurs des risques de biais, de failles de sécurité et de la capacité d’un modèle à générer du contenu nuisible ou toxique.
Bien qu’il y ait beaucoup de battage médiatique autour des modèles d’IA, les systèmes de test ML deviendront également rapidement un sujet brûlant alors que la réglementation est sur le point d’être appliquée dans l’UE avec la loi sur l’IA, et dans d’autres pays. Les entreprises qui développent des modèles d’IA devront prouver qu’elles respectent un ensemble de règles et atténuent les risques afin de ne pas avoir à payer de lourdes amendes.
Giskard est une startup d’IA qui adopte la réglementation et l’un des premiers exemples d’un outil de développement spécifiquement axé sur les tests de manière plus efficace.
« J’ai déjà travaillé chez Dataiku, notamment sur l’intégration de modèles NLP. Et j’ai pu constater que, lorsque j’étais en charge des tests, il y avait les deux choses qui ne fonctionnaient pas bien quand on voulait les appliquer à des cas pratiques, et c’était très difficile de comparer les performances des fournisseurs entre eux, » Le co-fondateur et PDG de Giskard, Alex Combessie, me l’a dit.
Il y a trois composants derrière le cadre de test de Giskard. Tout d’abord, la société a publié une bibliothèque Python open source qui peut être intégrée dans un projet LLM – et plus particulièrement dans les projets de génération augmentée par récupération (RAG). Il est déjà très populaire sur GitHub et est compatible avec d’autres outils des écosystèmes ML, tels que Hugging Face, MLFlow, Weights & Biases, PyTorch, Tensorflow et Langchain.
Après la configuration initiale, Giskard vous aide à générer une suite de tests qui sera régulièrement utilisée sur votre modèle. Ces tests couvrent un large éventail de problèmes, tels que les performances, les hallucinations, la désinformation, les résultats non factuels, les biais, les fuites de données, la génération de contenu nuisible et les injections rapides.
« Et il y a plusieurs aspects : vous aurez l’aspect performance, qui sera la première chose à l’esprit d’un data scientist. Mais de plus en plus, il y a l’aspect éthique, à la fois du point de vue de l’image de marque et maintenant du point de vue réglementaire », a déclaré Combessie.
Les développeurs peuvent ensuite intégrer les tests dans le pipeline d’intégration et de livraison continues (CI/CD) afin que les tests soient exécutés à chaque fois qu’il y a une nouvelle itération sur la base de code. En cas de problème, les développeurs reçoivent par exemple un rapport d’analyse dans leur référentiel GitHub.
Les tests sont personnalisés en fonction du cas d’utilisation final du modèle. Les entreprises travaillant sur RAG peuvent donner accès à des bases de données vectorielles et à des référentiels de connaissances à Giskard afin que la suite de tests soit la plus pertinente possible. Par exemple, si vous créez un chatbot capable de vous donner des informations sur le changement climatique sur la base du rapport le plus récent du GIEC et en utilisant un LLM d’OpenAI, les tests de Giskard vérifieront si le modèle peut générer des informations erronées sur le changement climatique, se contredit. , etc.
Crédits images : Giskard
Le deuxième produit de Giskard est un hub de qualité IA qui vous aide à déboguer un grand modèle de langage et à le comparer à d’autres modèles. Ce hub de qualité fait partie de l’offre premium de Giskard. À l’avenir, la startup espère pouvoir générer une documentation prouvant qu’un modèle est conforme à la réglementation.
« Nous commençons à vendre l’AI Quality Hub à des entreprises comme la Banque de France et L’Oréal pour les aider à déboguer et trouver les causes des erreurs. À l’avenir, c’est là que nous allons mettre toutes les fonctionnalités réglementaires », a déclaré Combessie.
Le troisième produit de la société s’appelle LLMon. Il s’agit d’un outil de surveillance en temps réel qui peut évaluer les réponses LLM aux problèmes les plus courants (toxicité, hallucinations, vérification des faits…) avant que la réponse ne soit renvoyée à l’utilisateur.
Il travaille actuellement avec des entreprises qui utilisent les API et LLM d’OpenAI comme modèle de base, mais l’entreprise travaille sur des intégrations avec Hugging Face, Anthropic, etc.
Réglementer les cas d’utilisation
Il existe plusieurs manières de réguler les modèles d’IA. Sur la base de conversations avec des personnes de l’écosystème de l’IA, il n’est toujours pas clair si la loi sur l’IA s’appliquera aux modèles fondamentaux d’OpenAI, Anthropic, Mistral et autres, ou uniquement aux cas d’utilisation appliqués.
Dans ce dernier cas, Giskard semble particulièrement bien placé pour alerter les développeurs sur les utilisations abusives potentielles des LLM enrichis de données externes (ou, comme l’appellent les chercheurs en IA, de génération augmentée par récupération, RAG).
Giskard compte actuellement 20 personnes. « Nous constatons une très nette adéquation du marché avec les clients des LLM, nous allons donc doubler environ la taille de l’équipe pour devenir le meilleur antivirus LLM du marché », a déclaré Combessie.