Lorsque Pinecone a annoncé une base de données vectorielles au début de l’année dernière, il construisait quelque chose qui était spécifiquement conçu pour l’apprentissage automatique et destiné aux scientifiques des données. L’idée était que vous pouviez interroger ces données dans un format que les machines comprennent, ce qui les rendait beaucoup plus rapides.
À l’origine, cela impliquait des recherches sémantiques où les utilisateurs pouvaient effectuer une recherche basée sur le sens au lieu de mots spécifiques. Il s’avère, cependant, qu’au fur et à mesure que les gens mettaient Pinecone au travail, il y avait des cas d’utilisation où des mots clés spécifiques importaient, et aujourd’hui, la société a annoncé qu’il était désormais possible d’effectuer des recherches combinant à la fois des recherches sémantiques et des recherches par mots clés, ce que le fondateur et PDG de la société Edo Liberty appelle recherche hybride.
« Nous avons mené de nombreuses recherches sur ce sujet et nous avons constaté qu’en fait, la recherche hybride finit par être meilleure [in many cases]. C’est mieux dans le sens où si vous pouvez combiner les deux recherches sémantiques, c’est le codage NLP profond des phrases qui obtient le contexte et le sens et ainsi de suite, mais vous pouvez également infuser cela avec des mots-clés spécifiques… la combinaison de ces deux finit par étant nettement meilleur », a déclaré Liberty à TechCrunch.
En fait, il dit que les deux se complètent bien, en particulier dans les cas où les termes spécifiques à l’industrie sont importants. Cela pourrait être quelque chose comme un médecin recherchant des mots-clés liés à une maladie spécifique. Dans ces cas, le contexte médical peut donner de meilleurs résultats en combinant une question et des mots-clés spécifiques autour d’une maladie donnée.
Il dit que les mots-clés ne prévalent jamais sur la question sémantique posée par l’utilisateur, mais qu’ils fournissent des informations supplémentaires pour aider à obtenir des résultats plus significatifs.
« Vous savez peut-être exactement ce que vous recherchez et vous pouvez peut-être donner un coup de pouce supplémentaire lorsque vous rendez votre recherche sémantique sensible aux mots clés – et cela aide en fait beaucoup. Donc, je ne veux pas jeter les bonnes parties de la recherche par mot-clé [by relying completely on semantic search]. Je ne veux pas que les mots clés soient dans le siège du conducteur, mais je ne veux pas non plus les ignorer complètement », a-t-il déclaré.
Comme Liberty nous l’a dit au moment de la série A de 28 millions de dollars de l’entreprise l’année dernière, la recherche est devenue un cas d’utilisation important pour l’entreprise.
« L’utilisation prédominante des bases de données vectorielles est pour la recherche, et la recherche au sens large du terme. Il s’agit de rechercher dans des documents, mais vous pouvez considérer la recherche comme une recherche d’informations en général, une découverte, une recommandation, une détection d’anomalies, etc. », a-t-il déclaré à l’époque.
Pinecone a été lancé en 2019 et a levé 38 millions de dollars par Crunchbase.