Une startup dont le produit concurrence GitHub Copilot et d’autres assistants de codage basés sur l’IA a obtenu le statut de licorne.
Jeudi, Codeium a annoncé avoir clôturé une levée de fonds de série C de 150 millions de dollars menée par General Catalyst, qui valorise l'entreprise à 1,25 milliard de dollars après la levée de fonds. Cette levée de fonds, à laquelle ont également participé les investisseurs existants Kleiner Perkins et Greenoaks Capital, porte le total des fonds levés par l'entreprise à près d'un quart de milliard de dollars (243 millions de dollars) à peine trois ans après son lancement.
Le cofondateur et PDG de Codeium, Varun Mohan, a déclaré à TechCrunch que Codeium n'avait même pas encore touché la tranche de 65 millions de dollars de série B qu'il avait levée en janvier. À l'époque, il y a seulement huit mois, Codeium était valorisé à un demi-milliard de dollars.
« Même si nous n'avons pratiquement pas réduit notre financement existant, nous pensons que cette injection de capital nous permettra d'accélérer considérablement la R&D et la croissance tout en faisant des paris stratégiques encore plus importants », a-t-il déclaré.
Codeium a été fondée en 2021 par Mohan et son ami d'enfance et diplômé du MIT, Douglas Chen. Avant Codeium, Chen travaillait chez Meta, où il a contribué à la création d'outils logiciels pour les casques de réalité virtuelle comme l'Oculus Quest. Mohan était responsable technique chez Nuro, la startup de livraison autonome, chargé de gérer l'équipe d'infrastructure d'autonomie.
La startup a débuté sous la forme d'une entreprise radicalement différente appelée Exafunction, axée sur l'optimisation et la virtualisation des GPU pour les charges de travail d'IA. Mais en 2022, Mohan et Chen ont senti une plus grande opportunité dans le codage génératif et ont décidé de changer de marque et de pivoter.
« Malgré l’afflux d’outils d’IA génératifs, les développeurs sont toujours aux prises avec des tâches de codage chronophages », a déclaré Mohan. « De nombreuses solutions basées sur l’IA fournissent des extraits de code génériques qui nécessitent un travail manuel important pour s’intégrer et se sécuriser dans les bases de code existantes. C’est là que notre assistance au codage par IA entre en jeu..«
La plateforme de Codeium, alimentée par des modèles d'IA génératifs formés sur du code public, fournit des suggestions dans le contexte de la base de code complète d'une application. Elle prend en charge environ 70 langages de programmation et s'intègre à un certain nombre d'environnements de développement populaires, notamment Microsoft Visual Studio et JetBrains.
Pour attirer les développeurs loin de Copilot et d'autres concurrents, Codeium a lancé une offre gratuite généreuse pour commencer. La stratégie semble avoir fonctionné : aujourd'hui, la startup compte plus de 700 000 utilisateurs et plus de 1 000 clients d'entreprise, dont Anduril, Zillow et Dell.
Quentin Clark, directeur général de General Catalyst, a laissé entendre que Codeium a remporté certains de ses plus gros contrats en adoptant une approche résolument centrée sur le client en matière de recherche de produits.
« L'approche de l'équipe a toujours été de suivre ses clients, ce qui a conduit l'entreprise à créer des solutions selon leurs conditions, déployables dans n'importe quel environnement et prenant en charge plus de langues que quiconque », a déclaré Clark dans un communiqué. « Ce que Codeium a créé n'est pas seulement une démonstration, une annonce ou une idée : il s'agit d'une activité à grande échelle, avec de grandes entreprises adoptant le produit dans l'ensemble de leurs organisations. »
Les entreprises hésitent souvent à divulguer leur code propriétaire à un tiers. Par exemple, Apple aurait interdit à son personnel d’utiliser Copilot l’année dernière, invoquant des inquiétudes concernant une fuite de données confidentielles. Pour tenter de dissiper ces craintes, Codeium a commencé à proposer une option d’installation auto-hébergée en plus de son plan standard de logiciel en tant que service.
Les entreprises peuvent désormais déployer le service Codeium sur leur propre matériel si elles le souhaitent. Elles peuvent également adopter une configuration hybride, en conservant leurs données sur leurs propres appareils tout en utilisant les serveurs de Codeium pour leurs besoins informatiques.
Les transferts de données vers le cloud comportent toujours des risques, mais Mohan affirme que Codeium utilise un cryptage puissant. « Nous n'entraînons jamais notre modèle propriétaire de saisie semi-automatique générative sur les données des utilisateurs, nous ne vendons jamais de données et nous nous assurons que toutes les transmissions de données sont cryptées », a-t-il ajouté.
Codeium a également pris des mesures pour supprimer le code sous licence « non permissive » (par exemple, le code protégé par le droit d'auteur) des ensembles de données qu'il utilisait pour entraîner ses modèles d'IA. Il a été démontré que certains outils de génération de code entraînés à l'aide de code sous licence restrictive ou protégé par le droit d'auteur régurgitaient ce code lorsqu'ils étaient sollicités d'une certaine manière, ce qui présente un risque de responsabilité (les développeurs qui incorporent le code pourraient être poursuivis). Mohan a déclaré que ce n'est pas le cas avec Codeium, grâce à son approche de préparation et de filtrage des données d'entraînement.
« Nous supprimons également toutes les données restantes qui ressemblent à du code sous licence explicitement non permissive, juste au cas où d’autres personnes copieraient du code sans fournir l’attribution et la licence appropriées », a-t-il ajouté. « De plus, nous disposons d’un filtrage et d’une journalisation d’attribution post-génération de pointe dans le cas où ces grands modèles probabilistes produisent du code similaire au code public, qu’il soit sous licence permissive ou non permissive. »
Mais qu'en est-il des hallucinations ? La plupart des outils de codage d'IA sont connus pour inventer des choses, ce qui peut être assez destructeur dans un environnement d'entreprise.
Une analyse réalisée par la start-up GitClear, spécialisée dans les outils de développement, a révélé que les outils d'IA générative ont entraîné l'envoi de davantage de codes erronés vers les bases de code au cours des dernières années. Une étude de Purdue a également révélé que plus de la moitié des réponses fournies par ChatGPT d'OpenAI aux questions de programmation sont incorrectes. Les chercheurs en sécurité ont mis en garde contre le risque que de tels outils amplifient les bugs existants dans les logiciels.
Une étude récente de la société de cybersécurité Synk a révélé que neuf développeurs sur dix s'inquiètent des implications plus larges de l'utilisation de plateformes de codage d'IA en matière de sécurité. Mais Mohan a affirmé que la technologie de Codeium, prétendument supérieure et riche en contexte, produit des résultats plus fiables que la plupart.
« Notre moteur de reconnaissance du contexte est capable de fonder les résultats sur ce qui existe déjà dans la base de code d'un utilisateur, ce qui conduit à des suggestions avec moins d'hallucinations et plus d'adhésion à la syntaxe, à la sémantique et aux normes existantes », a-t-il déclaré.
Que les références le confirment ou non, le discours commercial de Codeium semble trouver un écho auprès des bons dirigeants : le chiffre d'affaires a atteint huit chiffres cette année. Mohan a déclaré que la start-up de 80 personnes basée à San Jose prévoit d'augmenter ses effectifs à 120 d'ici 2025, car elle vise à faire une plus grande percée sur un marché avec des concurrents redoutables comme Tabnine, Anysphere et Poolside.
Codeium n’a probablement pas l’intention de rattraper Copilot, qui comptait plus de 1,3 million d’utilisateurs payants en avril, du moins pas dans l’immédiat. Ce n’est pas forcément le cas. Comme l’a justement noté Mohan, compte tenu de l’adoption généralisée des outils de codage IA parmi les développeurs (malgré leurs réserves), même une petite part du segment naissant est vouée à être lucrative.
Polaris Research prévoit que le marché des outils de codage d'IA vaudra 27,17 milliards de dollars d'ici 2032.
« L’excès de battage médiatique est un défi auquel l’industrie est confrontée », a déclaré Mohan. « Cela rendra plus difficile pour chaque entreprise de convaincre véritablement les utilisateurs finaux qu’elle est à la pointe du possible. Mais nous pensons que les entreprises d’IA réalistes et en quête de vérité comme Codeium finiront par se démarquer de ce bruit. »