Si vous avez utilisé ChatGPT Search ou Perplexity, vous savez que la possibilité de rechercher sur le Web et d'obtenir des citations en ligne améliore considérablement ces chatbots IA. Les résultats sont meilleurs lorsqu'ils impliquent des informations opportunes, et la recherche sur le Web peut réduire ce que l'on appelle les hallucinations (c'est-à-dire lorsqu'une IA générative produit des informations incorrectes).
C'est pourquoi la startup française Linkup construit une API qui permet aux développeurs d'accéder à du contenu Web provenant de sources premium et fiables et de transmettre les résultats à un grand modèle de langage (LLM) pour enrichir ses réponses. De nombreux développeurs d'IA appellent ce flux de travail Retrieval-Augmented Generation (ou RAG).
Plus important encore, l’avenir des robots scraping est incertain. S'il n'y a pas d'accord financier préexistant entre les éditeurs de contenu et les entités qui suppriment les pages Web, ces robots extraient le contenu du Web ouvert sans payer et de nombreuses personnes ne sont pas satisfaites de cet accord, ce qui accroît la surveillance réglementaire autour de la formation en IA.
Il y a également des affaires juridiques très médiatisées dans le cadre, comme le procès en cours entre OpenAI, le créateur de ChatGPT, et le New York Times – de sorte que la situation autour du web scraping pourrait changer dans un avenir proche. C'est pourquoi OpenAI a signé des accords de licence de contenu pluriannuels avec de grands éditeurs tels que AP, Axel Springer, Condé Nast, El País, le Financial Times, Le Monde et d'autres.
« Nous avons créé l'entreprise à l'époque où OpenAI concluait des accords avec des sources d'information… à des fins de formation ou d'inférence, pour augmenter les réponses des modèles OpenAI et de leurs produits. Et nous avons pensé : « OK, c'est génial parce que nous avons enfin des entreprises d'IA qui paient leurs sources » », a déclaré Philippe Mizrahi, co-fondateur et PDG de Linkup, à TechCrunch, expliquant ce qui a poussé les fondateurs à créer une entreprise pour connecter les développeurs d'IA avec fournisseurs de contenu pour – espérons-le – leur bénéfice mutuel.
Actuellement, les éditeurs de contenu sont confrontés à une décision difficile quant à la marche à suivre face à la soif de données de GenAI. Ils peuvent bloquer les web scrapers à l'aide du fichier de métadonnées (non juridiquement contraignant) robots.txt (qui indique si un site Web peut être utilisé ou non pour entraîner un modèle d'IA). En outre, ils peuvent poursuivre en justice les sociétés d’IA qui, selon eux, ont violé leurs droits d’auteur. Alternativement, ils pourraient laisser les robots indexer librement leur contenu (euh, YOLO ?). Ou encore, ils pourront peut-être concéder sous licence du contenu aux développeurs d’IA afin d’obtenir une récompense pour leur propriété intellectuelle.
Mais il existe des milliers d’entreprises d’IA (ou d’entreprises technologiques utilisant l’IA) qui n’ont pas l’échelle et la portée d’OpenAI. En même temps, ce qui est formidable avec le Web, c'est qu'il existe une longue liste d'éditeurs de contenu. Mais cela signifie qu’un petit éditeur de contenu ne dispose généralement pas de ressources financières suffisantes pour intenter une action en justice. Cela signifie également qu’il sera difficile de passer d’un modèle de scraping à un modèle de licence pour des millions de sites Web.
C'est pourquoi Linkup n'est pas seulement une solution technique. C'est un marché ; un intermédiaire entre les éditeurs de contenu et les entreprises qui souhaitent enrichir leurs réponses LLM avec du contenu web.
Linkup signe des accords de licence de contenu avec des éditeurs et s'intègre à leur CMS afin de pouvoir récupérer le contenu des éditeurs sans aucun scraping. Linkup paie ensuite les partenaires de contenu en fonction de la fréquence à laquelle leur contenu est consulté par les clients Linkup.
« Nous ciblons réellement les applications qui implémentent l'IA dans leurs propres produits », a déclaré Mizrahi. « Ainsi, le cas d'utilisation typique est que je crée une application d'IA en utilisant un modèle de Mistral ou OpenAI. Je construis mon propre pipeline, mais j'ai besoin d'enrichir ce pipeline avec des informations externes.
En remarque, même si ChatGPT peut naviguer sur le Web, les modèles GPT ne le peuvent pas. OpenAI fournit à la fois une application extrêmement populaire (ChatGPT) et des LLM que les développeurs peuvent utiliser avec une API (GPT). Mais la recherche sur le Web est une fonctionnalité de ChatGPT.
« Il y a un exemple que j'aime bien, celui d'un de nos clients… qui a créé une application interne pour ses vendeurs », nous a également expliqué Mizrahi. « D'une part, ils ont répertorié tous les avantages de leurs propres produits. Et grâce à nous, ils obtiennent des informations fraîches et de qualité sur leurs prospects et les intègrent dans un LLM Mistral. Et le LLM de Mistral va générer une sorte d'argumentaire de vente pour les commerciaux, qu'ils auront sous les yeux lorsqu'ils passeront des appels avec les prospects.
Au début, Linkup a décidé de se concentrer sur les informations d'entreprise et commerciales. En plus des sites d'actualités, la startup travaille avec des bases de données de connaissances – pensez à Statista, Xerfi ou à d'autres ressources dans la même veine.
Ce n'est pas la seule startup à travailler en coulisses pour apporter du contenu premium aux LLM avec des contrats de licence. Le concurrent le plus visible est ScalePost, une startup qui travaille avec Perplexity pour accélérer ses accords de licence avec les éditeurs.
Linkup a levé il y a quelques mois un tour de table de 3 millions d'euros (3,2 millions de dollars aux taux de change actuels) auprès d'Axeleo Capital, Motier Ventures, Seedcamp et d'une centaine de business angels. Environ 10 personnes travaillent actuellement pour la startup et elle prévoit d'embaucher 10 autres personnes au cours de l'année prochaine.
