Obtenir

Pour les chercheurs, la lecture d’articles scientifiques peut prendre énormément de temps. Selon une enquête, les scientifiques passent sept heures par semaine à rechercher des informations. Une autre enquête suggère que les revues systématiques de la littérature – des synthèses scientifiques des preuves sur un sujet particulier – prennent en moyenne 41 semaines pour une équipe de recherche de cinq personnes.

Mais il n’est pas nécessaire qu’il en soit ainsi.

C’est du moins le message d’Andreas Stuhlmüller, co-fondateur d’une startup d’IA, Elicit, qui a conçu un « assistant de recherche » pour les scientifiques et les laboratoires de R&D. Avec des bailleurs de fonds tels que Fifty Years, Basis Set, Illusion et les investisseurs providentiels Jeff Dean (le scientifique en chef de Google) et Thomas Ebeling (l’ancien PDG de Novartis), Elicit construit un outil basé sur l’IA pour éliminer les aspects les plus fastidieux de l’analyse de la littérature.

« Obtenir est un assistant de recherche qui automatise la recherche scientifique avec des modèles linguistiques », a déclaré Stuhlmüller à TechCrunch dans une interview par courrier électronique. « Plus précisément, il automatise l’analyse de la littérature en recherchant des articles pertinents, en extrayant des informations clés sur les études et en organisant les informations en concepts. »

Elicit est une entreprise à but lucratif issue de Should, une fondation de recherche à but non lucratif lancée en 2017 par Stuhlmüller, un ancien chercheur du laboratoire de calcul et de cognition de Stanford. L’autre co-fondateur d’Elicit, Jungwon Byun, a rejoint la startup en 2019 après avoir dirigé la croissance de la société de prêt en ligne Upstart.

En utilisant une variété de modèles propriétaires et tiers, Elicit recherche et découvre des concepts dans les articles, permettant aux utilisateurs de poser des questions telles que « Quels sont tous les effets de la créatine ? » ou « Quels sont tous les ensembles de données qui ont été utilisés pour étudier le raisonnement logique ? » et obtenez une liste de réponses tirées de la littérature académique.

« En automatisant le processus d’examen systématique, nous pouvons immédiatement faire gagner du temps et de l’argent aux organismes de recherche universitaires et industriels qui produisent ces examens », a déclaré Stuhlmüller. « En réduisant suffisamment les coûts, nous ouvrons la voie à de nouveaux cas d’utilisation qui étaient auparavant d’un coût prohibitif, comme les mises à jour juste à temps lorsque l’état des connaissances dans un domaine change. »

Mais attendez, pourriez-vous dire : les modèles linguistiques n’ont-ils pas tendance à inventer les choses ? En effet, ils le font. La tentative de Meta de créer un modèle de langage pour rationaliser la recherche scientifique, Galactica, a été abandonnée seulement trois jours après son lancement, une fois qu’il a été découvert que le modèle faisait fréquemment référence à de faux documents de recherche qui semblaient justes mais n’étaient pas réellement factuels.

Stuhlmüller affirme cependant qu’Elicit a pris des mesures pour garantir que son IA est plus fiable que la plupart des plates-formes spécialement conçues.

D’une part, Elicit décompose les tâches complexes effectuées par ses modèles en éléments « compréhensibles par l’homme ». Cela permet à Elicit de savoir, par exemple, à quelle fréquence différents modèles inventent des choses lorsqu’ils génèrent des résumés, et d’aider ensuite les utilisateurs à identifier quelles réponses vérifier – et quand.

Elicit tente également de calculer la « fiabilité » globale d’un article scientifique en tenant compte de facteurs tels que le fait que les essais menés dans le cadre de la recherche étaient contrôlés ou randomisés, la source de financement, les conflits potentiels et la taille des essais.

L’outil de recherche d’Elicit pour la littérature sur l’IA.

« Nous ne créons pas d’interfaces de chat », a déclaré Stuhlmüller. « Les utilisateurs sollicités appliquent des modèles de langage sous forme de tâches par lots… Nous ne générons jamais simplement des réponses à l’aide de modèles, nous lions toujours les réponses à la littérature scientifique pour réduire les hallucinations et faciliter la vérification du travail des modèles. »

Je ne suis pas nécessairement convaincu qu’Elicit ait résolu certains des problèmes majeurs qui affligent aujourd’hui les modèles de langage, étant donné leur insoluble. Mais ses efforts semblent certainement avoir suscité l’intérêt – et peut-être même la confiance – de la communauté des chercheurs.

Stuhlmüller affirme que plus de 200 000 personnes utilisent Elicit chaque mois, ce qui représente une croissance 3 fois supérieure à celle d’une année sur l’autre, provenant d’organisations telles que la Banque mondiale, Genentech et Stanford. « Nos utilisateurs demandent à payer pour des fonctionnalités plus puissantes et à exécuter Elicit à plus grande échelle », a-t-il ajouté.

Vraisemblablement, c’est cet élan qui a conduit au premier cycle de financement d’Elicit – une tranche de 9 millions de dollars menée par Fifty Years. Le plan est d’investir la majeure partie des nouveaux fonds dans le développement ultérieur du produit d’Elicit ainsi que dans l’élargissement de l’équipe de chefs de produit et d’ingénieurs logiciels d’Elicit.

Mais quel est le plan d’Elicit pour gagner de l’argent ? Bonne question – et c’est une question que j’ai posée à Stuhlmüller à brûle-pourpoint. Il a souligné l’offre payante d’Elicit, lancée cette semaine, qui permet aux utilisateurs de rechercher des articles, d’extraire des données et de résumer des concepts à une plus grande échelle que celle prise en charge par l’offre gratuite. La stratégie à long terme consiste à faire d’Elicit un outil général de recherche et de raisonnement – ​​un outil pour lequel des entreprises entières débourseraient.

Les efforts open source tels que l’Open Language Model de l’Allen Institute for AI, qui visent à développer un grand modèle de langage gratuit et optimisé pour la science, constituent un obstacle possible au succès commercial d’Elicit. Mais Stuhlmüller dit qu’il considère l’open source plus comme un complément que comme une menace.

« À l’heure actuelle, la principale concurrence est le travail humain – des assistants de recherche embauchés pour extraire minutieusement les données des articles », a déclaré Stuhlmüller. « La recherche scientifique est un marché énorme et les outils de flux de travail de recherche n’ont pas d’opérateur historique majeur. C’est là que nous verrons émerger de tout nouveaux flux de travail axés sur l’IA.

A lire également