La start-up d'informatique photonique Lightmatter a levé 400 millions de dollars pour éliminer l'un des goulots d'étranglement des centres de données modernes. La couche d'interconnexion optique de l'entreprise permet à des centaines de GPU de fonctionner de manière synchrone, rationalisant ainsi le travail coûteux et complexe de formation et d'exécution de modèles d'IA.
La croissance de l'IA et les immenses besoins de calcul qui en découlent ont dynamisé le secteur des centres de données, mais ce n'est pas aussi simple que de brancher un millier de GPU supplémentaires. Comme les experts en informatique haute performance le savent depuis des années, la vitesse de chaque nœud de votre supercalculateur n'a pas d'importance si ces nœuds sont inactifs la moitié du temps en attendant l'arrivée des données.
La ou les couches d'interconnexion sont en réalité ce qui transforme les racks de CPU et de GPU en une seule machine géante. Il s'ensuit donc que plus l'interconnexion est rapide, plus le centre de données est rapide. Et il semble que Lightmatter construise de loin la couche d’interconnexion la plus rapide, en utilisant les puces photoniques qu’elle développe depuis 2018.
« Les hyperscalers savent que s'ils veulent un ordinateur doté d'un million de nœuds, ils ne peuvent pas le faire avec les commutateurs traditionnels Cisco. Une fois que vous quittez le rack, vous passez d’une interconnexion haute densité à une tasse sur une ficelle », a déclaré Nick Harris, PDG et fondateur de la société, à TechCrunch. (Vous pouvez voir un court discours qu'il a donné résumant cette question ici.)
L'état de l'art, a-t-il déclaré, est NVLink et en particulier la plate-forme NVL72, qui regroupe 72 unités Nvidia Blackwell câblées ensemble dans un rack, capable d'un maximum de 1,4 exaFLOP avec une précision FP4. Mais aucun rack n’est une île, et tout ce calcul doit être extrait via 7 térabits de réseau « évolutif ». Cela semble beaucoup, et c'est le cas, mais l'incapacité de mettre en réseau ces unités plus rapidement entre elles et avec d'autres racks est l'un des principaux obstacles à l'amélioration des performances.
« Pour un million de GPU, vous avez besoin de plusieurs couches de commutateurs, ce qui ajoute une énorme charge de latence », a déclaré Harris. « Vous devez passer de l'électrique à l'optique, puis de l'électrique à l'optique… la quantité d'énergie que vous utilisez et le temps que vous attendez sont énormes. Et la situation s’aggrave considérablement dans les clusters plus importants.
Alors, qu’apporte Lightmatter ? Fibre. Beaucoup, beaucoup de fibre, acheminée via une interface purement optique. Avec jusqu'à 1,6 térabits par fibre (en utilisant plusieurs couleurs) et jusqu'à 256 fibres par puce… eh bien, disons simplement que 72 GPU à 7 térabits commencent à paraître positivement pittoresques.
« La photonique progresse bien plus rapidement que ce que l'on pensait : les gens ont du mal à la faire fonctionner depuis des années, mais nous y sommes », a déclaré Harris. « Après sept années de travail absolument meurtrier », a-t-il ajouté.
L'interconnexion photonique actuellement disponible chez Lightmatter atteint 30 térabits, tandis que le câblage optique sur rack est capable de permettre à 1 024 GPU de fonctionner de manière synchrone dans leurs propres racks spécialement conçus. Au cas où vous vous poseriez la question, les deux chiffres n'augmentent pas selon des facteurs similaires, car une grande partie de ce qui devrait être mis en réseau sur un autre rack peut être réalisé sur rack dans un cluster de mille GPU. (Et de toute façon, 100 térabits sont en route.)
Le marché est énorme, a souligné Harris, et toutes les grandes entreprises de centres de données, de Microsoft à Amazon en passant par les nouveaux entrants comme xAI et OpenAI, font preuve d'un appétit sans fin pour le calcul. « Ils relient les bâtiments entre eux ! Je me demande combien de temps ils pourront continuer ainsi », a-t-il déclaré.
Beaucoup de ces hyperscalers sont déjà des clients, même si Harris n’en nommerait aucun. « Pensez à Lightmatter un peu comme à une fonderie, comme TSMC », a-t-il déclaré. « Nous ne choisissons pas nos favoris et n'attribuons pas notre nom aux marques d'autres personnes. Nous leur fournissons une feuille de route et une plate-forme, ce qui les aide simplement à agrandir le gâteau.
Mais, a-t-il ajouté timidement, « vous ne quadruplez pas votre valorisation sans tirer parti de cette technologie », peut-être une allusion au récent cycle de financement d'OpenAI valorisant l'entreprise à 157 milliards de dollars, mais la remarque pourrait tout aussi bien concerner sa propre entreprise.
Ce cycle D de 400 millions de dollars le valorise à 4,4 milliards de dollars, un multiple similaire à sa valorisation de mi-2023 qui « fait de nous de loin la plus grande entreprise de photonique. Alors c'est cool ! dit Harris. Le cycle a été dirigé par T. Rowe Price Associates, avec la participation des investisseurs existants Fidelity Management & Research Company et GV.
Quelle est la prochaine étape ? En plus de l'interconnexion, la société développe de nouveaux substrats pour les puces afin qu'elles puissent effectuer des tâches de mise en réseau encore plus intimes, si vous préférez, en utilisant la lumière.
Harris a émis l’hypothèse que, outre l’interconnexion, la puissance par puce serait le principal différenciateur à l’avenir. « Dans 10 ans, tout le monde disposera de puces à l'échelle d'une tranche. Il n'y a tout simplement pas d'autre moyen d'améliorer les performances de chaque puce », a-t-il déclaré. Cerebras y travaille bien sûr déjà, même si la question de savoir si elle est capable de capter la véritable valeur de cette avancée à ce stade de la technologie reste ouverte.
Mais pour Harris, voyant l’industrie des puces se heurter à un mur, il prévoit d’être prêt et d’attendre pour la prochaine étape. « Dans dix ans, interconnecter est La loi de Moore », a-t-il déclaré.
