La compression de mémoire à l'échelle nanoseconde de ZeroPoint pourrait maîtriser une infrastructure d'IA gourmande en énergie

L’IA n’est que le marché le plus récent et le plus gourmand en matière de calcul haute performance, et les architectes système travaillent 24 heures sur 24 pour extraire chaque goutte de performance de chaque watt. La startup suédoise ZeroPoint, dotée d'un nouveau financement de 5 millions d'euros, souhaite les aider avec une nouvelle technique de compression de mémoire à l'échelle de la nanoseconde – et oui, c'est aussi compliqué que cela en a l'air.

Le concept est le suivant : compresser sans perte les données juste avant qu'elles n'entrent dans la RAM, et les décompresser ensuite, élargissant ainsi le canal mémoire de 50 % ou plus simplement en ajoutant un petit morceau à la puce.

La compression est, bien entendu, une technologie fondamentale en informatique ; Comme l'a souligné le PDG de ZeroPoint, Klas Moreau (à gauche dans l'image ci-dessus, avec les co-fondateurs Per Stenström et Angelos Arelakis), « Nous ne stockerions pas de données sur le disque dur aujourd'hui sans les compresser. Les recherches suggèrent que 70 % des données en mémoire sont inutiles. Alors pourquoi ne pas compresser en mémoire ? »

La réponse est que nous n'avons pas le temps. Compresser un fichier volumineux pour le stocker (ou l'encoder, comme on dit lorsqu'il s'agit de vidéo ou d'audio) est une tâche qui peut prendre des secondes, des minutes ou des heures selon vos besoins. Mais les données traversent la mémoire en une infime fraction de seconde, entrant et sortant aussi vite que le processeur peut le faire. Un délai d'une seule microseconde pour supprimer les bits « inutiles » d'un paquet de données entrant dans le système de mémoire serait catastrophique pour les performances.

La mémoire n'avance pas nécessairement au même rythme que la vitesse du processeur, bien que les deux (ainsi que de nombreux autres composants de la puce) soient inextricablement liés. Si le processeur est trop lent, les données sont sauvegardées en mémoire – et si la mémoire est trop lente, le processeur perd des cycles en attendant la prochaine pile de bits. Tout fonctionne de concert, comme on peut s’y attendre.

Bien qu'une compression de mémoire ultra-rapide ait été démontrée, elle entraîne un deuxième problème : essentiellement, vous devez décompresser les données aussi vite que vous les avez compressées, les ramenant à leur état d'origine, sinon le système n'aura aucune idée de comment. pour le gérer. Donc, à moins que vous ne convertissiez toute votre architecture vers ce nouveau mode de mémoire compressée, cela ne sert à rien.

ZeroPoint prétend avoir résolu ces deux problèmes grâce à une compression de mémoire ultra-rapide et de bas niveau qui ne nécessite aucune modification réelle du reste du système informatique. Vous ajoutez leur technologie sur votre puce, et c'est comme si vous aviez doublé votre mémoire.

Même si les détails essentiels ne seront probablement intelligibles que pour les personnes travaillant dans ce domaine, les bases sont assez faciles à comprendre pour les non-initiés, comme Moreau l'a prouvé lorsqu'il me l'a expliqué.

« Ce que nous faisons, c'est prendre une très petite quantité de données – une ligne de cache, parfois 512 bits – et y identifier des modèles », a-t-il déclaré. « C'est la nature des données, c'est qu'elles sont remplies d'informations moins efficaces, des informations peu localisées. Cela dépend des données : plus elles sont aléatoires, moins elles sont compressibles. Mais lorsque nous examinons la plupart des charges de données, nous constatons que nous sommes dans une fourchette de deux à quatre fois [more data throughput than before].»

Ce n’est pas à cela que ressemble réellement la mémoire. Mais vous voyez l'idée.

Crédits images : Zéro point

Ce n'est un secret pour personne que la mémoire peut être compressée. Moreau a déclaré que tout le monde dans l'informatique à grande échelle connaît cette possibilité (il m'a montré un article de 2012 le démontrant), mais l'a plus ou moins considérée comme académique, impossible à mettre en œuvre à grande échelle. Mais ZeroPoint, a-t-il déclaré, a résolu les problèmes de compactage – en réorganisant les données compressées pour être encore plus efficaces – et de transparence, de sorte que la technologie fonctionne non seulement mais fonctionne de manière assez transparente dans les systèmes existants. Et tout cela se passe en quelques nanosecondes.

« La plupart des technologies de compression, tant logicielles que matérielles, durent de l'ordre de milliers de nanosecondes. CXL [compute express link, a high-speed interconnect standard] peut réduire ce chiffre à des centaines », a déclaré Moreau. « Nous pouvons le réduire à trois ou quatre. »

Voici le CTO Angelos Arelakis qui l'explique à sa manière :

Les débuts de ZeroPoint arrivent certainement à point nommé, alors que des entreprises du monde entier sont à la recherche d'un calcul plus rapide et moins coûteux pour former une nouvelle génération de modèles d'IA. La plupart des hyperscalers (si nous devons les appeler ainsi) sont friands de toute technologie qui peut leur donner plus de puissance par watt ou leur permettre de réduire un peu la facture d'électricité.

La principale mise en garde à tout cela est simplement que, comme mentionné, cela doit être inclus sur la puce et intégré à partir de zéro – vous ne pouvez pas simplement insérer un dongle ZeroPoint dans le rack. À cette fin, la société travaille avec des fabricants de puces et des intégrateurs de systèmes pour concéder sous licence la technique et la conception matérielle sur des puces standard destinées au calcul haute performance.

Bien sûr, il s’agit de vos Nvidia et de vos Intel, mais aussi de plus en plus d’entreprises comme Meta, Google et Apple, qui ont conçu du matériel personnalisé pour exécuter leur IA et d’autres tâches coûteuses en interne. ZeroPoint positionne sa technologie comme une économie de coûts, et non comme une prime : il est concevable qu'en doublant efficacement la mémoire, la technologie s'amortisse rapidement.

Le cycle A de 5 millions d'euros qui vient de se clôturer a été mené par Matterwave Ventures, avec Industrifonden agissant en tant que leader nordique local, et les investisseurs existants Climentum Capital et Chalmers Ventures ont également contribué.

Moreau a déclaré que cet argent devrait leur permettre de se développer sur les marchés américains, ainsi que de doubler la mise sur les marchés suédois qu'ils recherchent déjà.