L'équipe FlexAI à Paris

Une startup française a levé un important investissement de démarrage pour « réarchitecturer l'infrastructure de calcul » pour les développeurs souhaitant créer et former des applications d'IA plus efficacement.

FlexAI, comme on l'appelle, fonctionne de manière furtive depuis octobre 2023, mais la société basée à Paris se lance officiellement mercredi avec un financement de 28,5 millions d'euros (30 millions de dollars), tout en teasant son premier produit : un service cloud à la demande. pour la formation en IA.

Il s’agit d’un gros changement pour un tour de table, ce qui signifie normalement un véritable pedigree de fondateur substantiel – et c’est le cas ici. Le co-fondateur et PDG de FlexAI, Brijesh Tripathi, était auparavant ingénieur de conception senior chez le géant des GPU et maintenant le chouchou de l'IA Nvidia, avant d'occuper divers postes supérieurs d'ingénierie et d'architecture chez Apple ; Tesla (travaillant directement sous Elon Musk) ; Zoox (avant qu'Amazon n'acquière la startup de conduite autonome) ; et, plus récemment, Tripathi était vice-président de la branche AXG de la plate-forme d'IA et de super calcul d'Intel.

Le co-fondateur et CTO de FlexAI, Dali Kilani, possède également un CV impressionnant, occupant divers postes techniques dans des entreprises telles que Nvidia et Zynga, tout en occupant plus récemment le poste de CTO dans la startup française Lifen, qui développe une infrastructure numérique pour le secteur de la santé.

Le tour de table a été mené par Alpha Intelligence Capital (AIC), Elaia Partners et Heartcore Capital, avec la participation de Frst Capital, Motier Ventures, Partech et du PDG d'InstaDeep, Karim Beguir.

L’énigme du calcul

Pour comprendre ce que Tripathi et Kilani tentent avec FlexAI, il convient d'abord de comprendre à quoi les développeurs et les praticiens de l'IA sont confrontés en termes d'accès au « calcul » ; cela fait référence à la puissance de traitement, à l'infrastructure et aux ressources nécessaires pour effectuer des tâches informatiques telles que le traitement des données, l'exécution d'algorithmes et l'exécution de modèles d'apprentissage automatique.

« L’utilisation de n’importe quelle infrastructure dans l’espace de l’IA est complexe ; ce n'est pas pour les âmes sensibles, ni pour les inexpérimentés », a déclaré Tripathi à TechCrunch. « Cela nécessite d’en savoir trop sur la façon de construire une infrastructure avant de pouvoir l’utiliser. »

En revanche, l'écosystème du cloud public qui a évolué au cours des deux dernières décennies constitue un bel exemple de la façon dont une industrie a émergé du besoin des développeurs de créer des applications sans trop se soucier du back-end.

« Si vous êtes un petit développeur et que vous souhaitez écrire une application, vous n'avez pas besoin de savoir où elle est exécutée ni quel est le back-end : il vous suffit de lancer une instance EC2 (Amazon Elastic Compute cloud) et vous c'est fini », a déclaré Tripathi. « Aujourd’hui, vous ne pouvez pas faire cela avec l’IA. »

Dans le domaine de l’IA, les développeurs doivent déterminer combien de GPU (unités de traitement graphique) ils doivent interconnecter sur quel type de réseau, géré via un écosystème logiciel qu’ils sont entièrement responsables de la mise en place. Si un GPU ou un réseau tombe en panne, ou si quelque chose dans cette chaîne tourne mal, il incombe au développeur de régler le problème.

« Nous voulons amener l'infrastructure de calcul de l'IA au même niveau de simplicité que celui atteint par le cloud à usage général – après 20 ans, oui, mais il n'y a aucune raison pour que le calcul de l'IA ne puisse pas bénéficier des mêmes avantages », a déclaré Tripathi. « Nous voulons arriver au point où l'exécution de charges de travail d'IA ne nécessite pas que vous deveniez des experts en centres de données. »

Alors que l'itération actuelle de son produit est testée par une poignée de clients bêta, FlexAI lancera son premier produit commercial plus tard cette année. Il s'agit essentiellement d'un service cloud qui connecte les développeurs à un « calcul virtuel hétérogène », ce qui signifie qu'ils peuvent exécuter leurs charges de travail et déployer des modèles d'IA sur plusieurs architectures, en payant en fonction de l'utilisation plutôt que de louer des GPU à l'heure.

Les GPU sont des rouages ​​essentiels dans le développement de l’IA, servant par exemple à former et à exécuter de grands modèles de langage (LLM). Nvidia est l'un des acteurs prééminents dans le domaine des GPU et l'un des principaux bénéficiaires de la révolution de l'IA déclenchée par OpenAI et ChatGPT. Au cours des 12 mois qui ont suivi le lancement par OpenAI d'une API pour ChatGPT en mars 2023, permettant aux développeurs d'intégrer la fonctionnalité ChatGPT dans leurs propres applications, les actions de Nvidia sont passées d'environ 500 milliards de dollars à plus de 2 000 milliards de dollars.

Les LLM affluent du secteur technologique, avec une demande de GPU qui monte en flèche en parallèle. Mais les GPU sont coûteux à exploiter, et les louer auprès d'un fournisseur de cloud pour des tâches plus petites ou des cas d'utilisation ponctuels n'a pas toujours de sens et peut être d'un coût prohibitif ; c'est pourquoi AWS s'est essayé à la location à durée limitée pour les petits projets d'IA. Mais la location reste la location, c'est pourquoi FlexAI souhaite éliminer les complexités sous-jacentes et permettre aux clients d'accéder au calcul de l'IA selon leurs besoins.

« Multicloud pour l'IA »

Le point de départ de FlexAI est que la plupart des développeurs ne le font pas vraiment se soucient pour la plupart des GPU ou des puces qu'ils utilisent, qu'il s'agisse de Nvidia, AMD, Intel, Graphcore ou Cerebras. Leur principale préoccupation est de pouvoir développer leur IA et créer des applications dans le cadre de leurs contraintes budgétaires.

C'est là qu'intervient le concept de « calcul universel de l'IA » de FlexAI, où FlexAI prend les exigences de l'utilisateur et les alloue à n'importe quelle architecture adaptée à ce travail particulier, en prenant en charge toutes les conversions nécessaires sur les différentes plates-formes, qu'il s'agisse de Gaudi d'Intel. infrastructure, Rocm d'AMD ou CUDA de Nvidia.

« Cela signifie que le développeur se concentre uniquement sur la création, la formation et l'utilisation de modèles », a déclaré Tripathi. « Nous nous occupons de tout en dessous. Les pannes, la récupération, la fiabilité sont toutes gérées par nous, et vous payez pour ce que vous utilisez.

À bien des égards, FlexAI vise à accélérer pour l'IA ce qui se passe déjà dans le cloud, ce qui signifie plus que la simple reproduction du modèle de paiement à l'utilisation : cela signifie la possibilité de passer au « multicloud » en s'appuyant sur les différents avantages de différentes infrastructures GPU et puces.

Par exemple, FlexAI canalisera la charge de travail spécifique d'un client en fonction de ses priorités. Si une entreprise dispose d'un budget limité pour la formation et le réglage fin de ses modèles d'IA, elle peut le configurer au sein de la plate-forme FlexAI pour obtenir le maximum de calcul pour son argent. Cela peut signifier passer par Intel pour un calcul moins cher (mais plus lent), mais si un développeur a une petite exécution qui nécessite la sortie la plus rapide possible, elle peut alors être acheminée via Nvidia.

Sous le capot, FlexAI est essentiellement un « agrégateur de demande », louant lui-même le matériel par des moyens traditionnels et, grâce à ses « liens solides » avec les gens d'Intel et d'AMD, obtient des prix préférentiels qu'il répartit sur sa propre clientèle. Cela ne signifie pas nécessairement contourner le pivot Nvidia, mais cela signifie peut-être que dans une large mesure – avec Intel et AMD se battant pour les restes de GPU laissés dans le sillage de Nvidia – ils sont fortement incités à jouer avec des agrégateurs tels que Nvidia. comme FlexAI.

« Si je peux le faire fonctionner pour les clients et amener des dizaines, voire des centaines de clients sur leur infrastructure, ils [Intel and AMD] sera très heureux », a déclaré Tripathi.

Cela contraste avec les acteurs cloud GPU similaires dans le domaine, tels que CoreWeave et Lambda Labs, bien financés, qui se concentrent directement sur le matériel Nvidia.

« Je veux amener le calcul de l'IA au point où se trouve actuellement le cloud computing à usage général », a noté Tripathi. « Vous ne pouvez pas faire du multicloud avec l'IA. Vous devez sélectionner le matériel spécifique, le nombre de GPU, l'infrastructure, la connectivité, puis le maintenir vous-même. Aujourd’hui, c’est le seul moyen d’obtenir réellement des calculs d’IA.

Lorsqu'on lui a demandé qui étaient exactement les partenaires de lancement, Tripathi a déclaré qu'il n'était pas en mesure de tous les nommer en raison du manque « d'engagements formels » de la part de certains d'entre eux.

« Intel est un partenaire solide, ils fournissent sans aucun doute l'infrastructure, et AMD est un partenaire qui fournit l'infrastructure », a-t-il déclaré. « Mais il existe un deuxième niveau de partenariats en cours avec Nvidia et quelques autres sociétés de silicium que nous ne sommes pas encore prêts à partager, mais ils sont tous dans le mix et les protocoles d'accord. [memorandums of understanding] sont en cours de signature en ce moment.

L'effet Elon

Tripathi est plus que équipé pour relever les défis à venir, ayant travaillé dans certaines des plus grandes entreprises technologiques du monde.

« J'en sais assez sur les GPU ; J'avais l'habitude de construire des GPU », a déclaré Tripathi à propos de son passage de sept ans chez Nvidia, qui s'est terminé en 2007 lorsqu'il a quitté le navire pour Apple alors qu'il lançait le premier iPhone. « Chez Apple, je me suis concentré sur la résolution des vrais problèmes des clients. J'étais là quand Apple a commencé à construire ses premiers SoC [system on chips] pour les téléphones.

Tripathi a également passé deux ans chez Tesla de 2016 à 2018 en tant que responsable de l'ingénierie matérielle, où il a fini par travailler directement sous Elon Musk au cours de ses six derniers mois après que deux personnes au-dessus de lui ont brusquement quitté l'entreprise.

« Chez Tesla, ce que j'ai appris et que j'intègre dans ma startup, c'est qu'il n'y a pas de contraintes autres que la science et la physique », a-t-il déclaré. « La façon dont les choses se font aujourd’hui n’est pas celle qu’elles devraient ou doivent être. Vous devez rechercher ce qu’il convient de faire selon les premiers principes et, pour ce faire, supprimer toutes les boîtes noires.

Tripathi a été impliqué dans la transition de Tesla vers la fabrication de ses propres puces, une décision qui a depuis été imitée par GM et Hyundai, entre autres constructeurs automobiles.

« L'une des premières choses que j'ai faites chez Tesla a été de déterminer combien de microcontrôleurs il y avait dans une voiture, et pour ce faire, nous avons dû littéralement trier un tas de ces grosses boîtes noires entourées d'un blindage et d'un boîtier métalliques, pour trouvez ces très petits microcontrôleurs là-dedans », a déclaré Tripathi. « Et nous avons fini par mettre cela sur une table, l'avons disposé et avons dit : « Elon, il y a 50 microcontrôleurs dans une voiture. Et nous payons parfois des marges 1 000 fois supérieures car ils sont blindés et protégés dans un grand boîtier métallique. Et il a dit : « Allons créer le nôtre ». Et nous l’avons fait.

Les GPU comme garantie

À plus long terme, FlexAI aspire également à construire sa propre infrastructure, y compris des centres de données. Selon Tripathi, cela sera financé par un financement par emprunt, s'appuyant sur une tendance récente selon laquelle des concurrents dans le domaine, notamment CoreWeave et Lambda Labs, utilisent les puces Nvidia comme garantie pour garantir des prêts – plutôt que de donner plus de capitaux propres.

« Les banquiers savent désormais comment utiliser les GPU comme garanties », a déclaré Tripathi. « Pourquoi donner des capitaux propres ? Tant que nous ne deviendrons pas un véritable fournisseur de calcul, la valeur de notre entreprise ne suffira pas à nous procurer les centaines de millions de dollars nécessaires pour investir dans la construction de centres de données. Si nous ne faisions que des capitaux propres, nous disparaissons lorsque l’argent disparaît. Mais si nous misons réellement sur des GPU comme garantie, ils peuvent retirer les GPU et les placer dans un autre centre de données.

A lire également