Microsoft EvoDiff

Les protéines, les molécules naturelles qui assurent les fonctions cellulaires clés du corps, sont les éléments constitutifs de toutes les maladies. Caractériser les protéines peut révéler les mécanismes d’une maladie, y compris les moyens de la ralentir ou potentiellement de l’inverser, tout en créer les protéines peuvent conduire à des classes entièrement nouvelles de médicaments et de produits thérapeutiques.

Mais le processus actuel de conception de protéines en laboratoire est coûteux, tant du point de vue informatique que des ressources humaines. Cela implique de trouver une structure protéique qui pourrait vraisemblablement effectuer une tâche spécifique à l’intérieur du corps, puis trouver une séquence protéique – la séquence d’acides aminés qui composent une protéine – susceptible de se « replier » dans cette structure. (Les protéines doivent se plier correctement en formes tridimensionnelles pour remplir leur fonction prévue.)

Cela ne doit pas nécessairement être aussi compliqué.

Cette semaine, Microsoft a présenté un framework à usage général, EvoDiff, qui, selon la société, peut générer des protéines « haute fidélité » et « diverses » à partir d’une séquence protéique. Différent des autres cadres de génération de protéines, EvoDiff ne nécessite aucune information structurelle sur la protéine cible, éliminant ainsi l’étape généralement la plus laborieuse.

Disponible en open source, EvoDiff pourrait être utilisé pour créer des enzymes pour de nouvelles méthodes thérapeutiques et d’administration de médicaments, ainsi que de nouvelles enzymes pour des réactions chimiques industrielles, explique Kevin Yang, chercheur principal chez Microsoft.

« Nous envisageons qu’EvoDiff étendra les capacités d’ingénierie des protéines au-delà du paradigme structure-fonction vers une conception programmable axée sur la séquence », a déclaré Yang, l’un des co-créateurs d’EvoDiff, à TechCrunch dans une interview par courrier électronique. « Avec EvoDiff, nous démontrons que nous n’avons peut-être pas réellement besoin de structure, mais plutôt que » la séquence protéique est tout ce dont vous avez besoin « pour concevoir de nouvelles protéines de manière contrôlable. »

Au cœur du framework EvoDiff se trouve un modèle de 640 paramètres formé sur les données de toutes les différentes espèces et classes fonctionnelles de protéines. (« Paramètres » sont les parties d’un modèle d’IA apprises à partir des données d’entraînement et définissent essentiellement la compétence du modèle sur un problème – dans ce cas, générer des protéines.) Les données pour entraîner le modèle proviennent de l’ensemble de données OpenFold pour les alignements de séquences. et UniRef50, un sous-ensemble de données d’UniProt, la base de données de séquences protéiques et d’informations fonctionnelles maintenue par le consortium UniProt.

EvoDiff est un modèle de diffusion, dont l’architecture est similaire à celle de nombreux modèles de génération d’images modernes tels que Stable Diffusion et DALL-E 2. EvoDiff apprend à soustraire progressivement le bruit d’une protéine de départ composée presque entièrement de bruit, en la rapprochant – lentement, étape par étape – d’une séquence protéique.

Le processus par lequel EvoDiff génère des protéines.

Les modèles de diffusion sont de plus en plus appliqués à des domaines autres que la génération d’images, allant de la conception de nouvelles protéines, comme EvoDiff, à la création de musique et même à la synthèse de parole.

« S’il y a une chose à retenir [from EvoDiff], je pense que ce serait cette idée que nous pouvons – et devrions – générer des protéines par séquence en raison de la généralité, de l’échelle et de la modularité que nous sommes en mesure d’atteindre », Ava Amini, chercheuse principale chez Microsoft, autre co-contributrice sur EvoDiff. , a déclaré par e-mail. « Notre cadre de diffusion nous donne la capacité de le faire et également de contrôler la manière dont nous concevons ces protéines pour atteindre des objectifs fonctionnels spécifiques. »

Selon Amini, EvoDiff peut non seulement créer de nouvelles protéines, mais aussi combler les « lacunes » d’une conception de protéine existante, pour ainsi dire. À condition qu’une partie d’une protéine se lie à une autre protéine, le modèle peut générer une séquence d’acides aminés protéiques autour de cette partie qui répond à un ensemble de critères, par exemple.

Parce qu’EvoDiff conçoit des protéines dans « l’espace de séquence » plutôt que dans la structure des protéines, il peut également synthétiser des « protéines désordonnées » qui ne finissent pas par se replier dans une structure tridimensionnelle finale. Comme les protéines fonctionnant normalement, les protéines désordonnées jouent un rôle important dans la biologie et la maladie, comme l’augmentation ou la diminution de l’activité d’autres protéines.

Il convient de noter que la recherche derrière EvoDiff n’a pas été évaluée par des pairs – du moins pas encore. Sarah Alamdari, data scientist chez Microsoft qui a contribué au projet, admet qu’il y a « beaucoup plus de travail de mise à l’échelle » à faire avant que le framework puisse être utilisé commercialement.

« Il ne s’agit que d’un modèle de 640 millions de paramètres, et nous pourrions constater une amélioration de la qualité de la génération si nous passons à des milliards de paramètres », a déclaré Alamdari par courrier électronique. « Bien que nous ayons démontré certaines stratégies à gros grain, pour obtenir un contrôle encore plus fin, nous voudrions conditionner EvoDiff sur du texte, des informations chimiques ou d’autres moyens de spécifier la fonction souhaitée. »

Dans une prochaine étape, l’équipe EvoDiff prévoit de tester les protéines générées par le modèle en laboratoire pour déterminer si elles sont viables. S’ils le sont, ils commenceront à travailler sur la prochaine génération du framework.

A lire également