Qu'est-ce que le repliement des protéines ?

Le repliement des protéines est le processus par lequel une chaîne de protéines se plie pour adopter une forme précise essentielle à sa fonction.

Depuis combien de temps le problème du repliement des protéines résiste-t-il aux scientifiques ?

Il résiste depuis plus de 50 ans.

Quels sont les impacts potentiels de la résolution du problème de repliement des protéines ?

Cela pourrait aider à développer de nouveaux médicaments, lutter contre le changement climatique, etc.

Quelle compétition a permis de comparer les algorithmes de repliement des protéines ?

La compétition CASP, qui a lieu tous les deux ans.

Quelle équipe a dominé la compétition CASP en 2018 et 2020 ?

L'équipe de DeepMind avec ses algorithmes AlphaFold et AlphaFold2.

Quelle est la précision d'AlphaFold2 dans la compétition CASP 2020 ?

AlphaFold2 a atteint un score GDT médian de 92.4.

Comment fonctionne l'algorithme AlphaFold de DeepMind ?

Il utilise une matrice de distance et des algorithmes de deep learning pour prédire la structure des protéines.

Quelles technologies DeepMind utilise-t-il pour le repliement des protéines ?

DeepMind utilise des algorithmes de deep learning, y compris des réseaux de convolution et des mécanismes d’attention.

DeepMind a-t-il partagé ses découvertes avec la communauté scientifique ?

Une partie du code a été publiée en open source, stimulant davantage la recherche.

Le repliement des protéines : Résolu par l'intelligence artificielle AlphaFold ?

00:22:40

https://www.youtube.com/watch?v=OGewxRMME8o

Résumé

TLDRGoogle a annoncé que sa filiale DeepMind a résolu le problème du repliement des protéines, un défi scientifique de longue date considéré crucial pour la biologie. Utilisant des algorithmes d'intelligence artificielle, notamment AlphaFold et sa version améliorée AlphaFold2, DeepMind a dominé la compétition CASP, montrant une capacité sans précédent à prédire la forme des protéines avec une grande précision. Cela pourrait révolutionner de nombreux domaines, notamment le développement de médicaments et la recherche scientifique. Bien que l'annonce ait suscité du scepticisme quant à ses impacts immédiats, elle représente une avancée significative dans l'application de l'IA aux sciences biologiques, malgré le fait que certains aspects du problème demeurent complexes et que les prédictions ne remplacent pas encore entièrement les méthodes expérimentales traditionnelles.

A retenir

💡 DeepMind a résolu le problème du repliement des protéines.
🤖 Utilisation avancée de l'intelligence artificielle et du deep learning.
🏆 Victoire décisive de DeepMind à la compétition CASP.
🔬 Impact potentiel énorme en biologie et médecine.
🔍 Prédictions de protéine avec une précision élevée.
🎯 AlphaFold2 a atteint un score GDT de 92.4.
📊 La compétition CASP compare des algorithmes de repliement.
🔗 AlphaFold utilise une matrice de distance pour modéliser les protéines.
🔁 Code source partagé pour stimuler davantage la recherche.
🚀 La résolution n'est pas encore parfaite, nécessitant des confirmations expérimentales.

Chronologie

00:00:00 - 00:05:00
Google annonce que son unité DeepMind a résolu le problème du repliement des protéines, un défi biologique de 50 ans, grâce à l'IA, promettant des avancées médicales et environnementales. Les protéines, essentielles pour la vie, sont fabriquées à partir de 21 acides aminés et leur fonction dépend de leur forme. Une séquence génétique détermine la chaîne des protéines, mais comprendre leur forme est crucial pour leur fonction.
00:05:00 - 00:10:00
Visualisation 3D des protéines est vital pour comprendre leur fonction thérapeutique. Cependant, déterminer cette forme est complexe et nécessite des techniques coûteuses comme la cristallographie. On ne prédit généralement pas la forme des protéines à partir de leur composition, ce qui en fait un défi scientifique notable. Le repliement des protéines est un processus d'énergie minimale, mais difficile à reproduire en simulation.
00:10:00 - 00:15:00
Le problème du repliement est résolu par la compétition CASP, où DeepMind a révolutionné le domaine avec son algorithme AlphaFold, atteignant un GDT de 87. Les méthodes antérieures comme Rosetta utilisaient des supercalculateurs, mais AlphaFold a surpassé ces techniques grâce à l'apprentissage profond. DeepMind, après avoir battu des records dans le jeu de Go, s'est tourné vers la biologie, et AlphaFold semble dominer la prédiction des structures protéiques.
00:15:00 - 00:22:40
AlphaFold utilise une approche innovante en deux étapes pour prédire les structures de protéines. Même si le problème ne peut pas être considéré comme complètement résolu, l'algorithme a brisé des barrières significatives. Bien que certains défis techniques et de compréhension demeurent, l'impact de l'IA sur la biologie est notable, ouvrant des perspectives pour de futures recherches et applications dans le domaine.

Afficher plus

Carte mentale

Vidéo Q&R

Quelle annonce Google a-t-il faite concernant DeepMind ?
Google a annoncé que sa filiale DeepMind a résolu le problème du repliement des protéines.
Qu'est-ce que le repliement des protéines ?
Le repliement des protéines est le processus par lequel une chaîne de protéines se plie pour adopter une forme précise essentielle à sa fonction.
Depuis combien de temps le problème du repliement des protéines résiste-t-il aux scientifiques ?
Il résiste depuis plus de 50 ans.
Quels sont les impacts potentiels de la résolution du problème de repliement des protéines ?
Cela pourrait aider à développer de nouveaux médicaments, lutter contre le changement climatique, etc.
Quelle compétition a permis de comparer les algorithmes de repliement des protéines ?
La compétition CASP, qui a lieu tous les deux ans.
Quelle équipe a dominé la compétition CASP en 2018 et 2020 ?
L'équipe de DeepMind avec ses algorithmes AlphaFold et AlphaFold2.
Quelle est la précision d'AlphaFold2 dans la compétition CASP 2020 ?
AlphaFold2 a atteint un score GDT médian de 92.4.
Comment fonctionne l'algorithme AlphaFold de DeepMind ?
Il utilise une matrice de distance et des algorithmes de deep learning pour prédire la structure des protéines.
Quelles technologies DeepMind utilise-t-il pour le repliement des protéines ?
DeepMind utilise des algorithmes de deep learning, y compris des réseaux de convolution et des mécanismes d’attention.
DeepMind a-t-il partagé ses découvertes avec la communauté scientifique ?
Une partie du code a été publiée en open source, stimulant davantage la recherche.

Voir plus de résumés vidéo

Accédez instantanément à des résumés vidéo gratuits sur YouTube grâce à l'IA !

Sous-titres

Défilement automatique:

00:00:00
C’est une nouvelle qui a fait l’effet d’une petite bombe
00:00:02
dans le monde de la science.
00:00:04
A grand renfort de communication, Google vient d’annoncer
00:00:06
que sa filiale DeepMind venait tout simplement de résoudre
00:00:10
un des problèmes les plus importants de la biologie :
00:00:13
le repliement des protéines.
00:00:14
Il s’agit d’un problème qui résistait aux biologistes depuis plus de 50 ans,
00:00:18
et que DeepMind a résolu grâce à ses algorithmes d’intelligence artificielle.
00:00:22
Nous promettant au passage que cela permettra de trouver
00:00:25
des médicaments contre tout un tas de maladies,
00:00:27
aider à la lutte contre le changement climatique,
00:00:29
réussite aux examens, permis de conduire, retour de l’être aimé, etc.
00:00:32
Est-ce qu’il s’agit d’un buzz savamment orchestré par Google ?
00:00:36
Est-ce que la nouvelle va se dégonfler
00:00:38
quand d’autres scientifiques se rendront compte qu’il y a une faille ?
00:00:41
Eh bien, si dire que le problème est « résolu » est un peu exagéré,
00:00:45
il faut quand même reconnaitre qu’il s’agit d’un exploit incroyable,
00:00:47
que pas grand monde n’avait vu venir,
00:00:50
et qui va effectivement avoir un impact énorme sur ce champ de la biologie.
00:00:53
[jingle]
00:01:00
Pour commencer, vous savez que le terme de « protéine » a déjà un sens
00:01:03
dans le langage de tous les jours : ce qu’on appelle couramment « les protéines »,
00:01:07
ce sont des nutriments, qu’on trouve dans la viande, le poisson, les œufs, etc.
00:01:11
Mais en biologie, les protéines, ce sont plus spécifiquement
00:01:14
une classe de très grosses molécules
00:01:16
qui s’occupent d’à peu près tout dans un organisme vivant :
00:01:20
elles font bouger les muscles, elles contrôlent le métabolisme,
00:01:23
elles servent de récepteurs, de transporteurs, d’anticorps, d’enzymes, etc.
00:01:27
Bref, ce sont les chevilles ouvrières de toutes les fonctions d’un organisme vivant.
00:01:31
On les compare parfois à des sortes de nanomachines moléculaires
00:01:34
qui œuvreraient dans nos cellules.
00:01:36
Pour pouvoir assurer toutes ces fonctions,
00:01:37
il existe un très grand nombre de protéines différentes.
00:01:40
Rien que chez l’être humain, on en compte des dizaines de milliers,
00:01:43
et sur l’ensemble du vivant, on en connait à ce jour près de 200 millions.
00:01:48
Évidemment ces protéines sont largement spécifiques à une espèce,
00:01:51
et donc quand on « mange des protéines », ça n’est pas pour les utiliser telles quelles.
00:01:55
Elles sont découpées en briques élémentaires
00:01:57
qui sont ensuite recyclées pour fabriquer nos propres protéines.
00:02:01
Ce qui permet cela, c’est le fait que toutes les protéines du monde vivant
00:02:04
sont fabriquées à partir d’une liste très restreinte de briques :
00:02:08
les acides aminés.
00:02:09
Le vivant utilise 21 types différents d’acides aminés,
00:02:12
qui permettent de fabriquer toutes les protéines.
00:02:15
Les acides aminés, ce sont des molécules élémentaires
00:02:17
qui obéissent à un schéma bien précis :
00:02:19
Un atome de carbone, qu’on représente au centre, qui possède 4 liaisons.
00:02:24
Et auquel sont attaché d’un côté un simple atome d’hydrogène,
00:02:28
sur un autre, un groupe NH2, dit « amine »,
00:02:31
et de l’autre côté un groupe COOH dit « acide ».
00:02:35
D’où le nom « acide aminé ».
00:02:37
Sur la dernière liaison, on peut attacher un peu ce qu’on veut.
00:02:40
C’est ce qu’on appelle un radical.
00:02:41
Les 21 acides aminés du vivant ont chacun un radical différent.
00:02:46
Ici vous en voyez une liste avec leur nom, leur formule,
00:02:49
et surtout une lettre unique qu’on utilise pour les désigner, c’est plus pratique.
00:02:53
Pour combiner les acides aminés et créer des protéines, c’est facile :
00:02:56
ils sont simplement liés les uns aux autres pour former une chaine.
00:03:00
Une protéine c’est juste une longue chaine d’acides aminés,
00:03:03
et donc pour la décrire, il suffit de donner la séquence de ces acides aminés.
00:03:07
Voici par exemple une séquence qui décrit une protéine qu’on trouve dans le Sars-Cov2,
00:03:11
vous savez le coronavirus responsable du Covid 19.
00:03:14
Cette protéine est assez petite, seulement 111 acides aminés.
00:03:18
Ce qui fait quand même pas loin de 2000 atomes au total.
00:03:21
De façon générale, quand une cellule de votre organisme
00:03:23
doit fabriquer une protéine, il lui faut connaitre le plan de montage,
00:03:27
c’est-à-dire quels acides aminés enchainer, et dans quel ordre.
00:03:30
Et cette information lui est justement fournit par l’ADN.
00:03:33
Pour simplifier, un gène représente la liste des acides aminés
00:03:37
qu’il faut enchainer pour fabriquer ne protéine donnée,
00:03:39
même si en fait c’est plus subtil que ça.
00:03:42
Alors très bien, une protéine c’est une longue chaine.
00:03:44
Il y a des tas de protéines qui diffèrent
00:03:46
par la séquence d’acide aminés qui forment la chaine.
00:03:48
Et on en a plein dans le corps.
00:03:50
Mais comment elles fonctionnent ?
00:03:52
Ce qui permet aux protéines d’agir,
00:03:54
de se comporter comme des nanomachines moléculaires,
00:03:56
c’est qu’une fois fabriquées,
00:03:57
les chaines ne restent pas comme ça comme un bout de ficelle tout mou.
00:04:01
Elles se replient sur elles-mêmes pour adopter une forme bien précise.
00:04:05
Chaque protéine a sa forme attitrée, et c’est ça qui lui donne sa fonction.
00:04:10
C’est le truc essentiel avec les protéines : ce qui leur permet de faire leur job,
00:04:14
ça n’est pas tant leur composition exacte que leur forme.
00:04:17
Elles sont comme des machines, et donc la forme est essentielle.
00:04:21
C’est le cas par exemple des anticorps,
00:04:22
qui ont généralement une structure en forme de Y
00:04:24
qui leur permet de s’accrocher aux agents pathogènes
00:04:26
afin de déclencher une réaction immunitaire.
00:04:29
Il y a aussi beaucoup de protéines qui servent de récepteurs
00:04:31
et qui fonctionnent comme une serrure qui attend sa clé.
00:04:34
La protéine s’active quand une molécule de forme complémentaire vient se lier à elle.
00:04:39
C’est d’ailleurs ce mécanisme qu’il y a derrière le principe
00:04:41
de beaucoup de médicaments, et aussi de drogues.
00:04:44
L’importance de la forme des protéines est telle qu’un certain nombre de maladies
00:04:47
sont dues au fait que certaines protéines n’adoptent pas la bonne configuration.
00:04:51
On pense que c’est notamment le cas pour des formes de phénylcétonurie,
00:04:54
ou des maladies neurodégénératives comme les maladies d’Alzheimer ou de Parkinson.
00:04:58
Puisqu’on parle de la forme des protéines, voyons un peu à quoi ça ressemble.
00:05:03
Ici j’ai chargé une représentation de la protéine
00:05:05
dont j’ai déjà parlé, qu’on trouve dans le Sars-Cov2.
00:05:07
J’ai pris celle-ci parce qu’elle est suffisamment petite.
00:05:11
Ici c’est la représentation avec tous les atomes,
00:05:13
donc on y voit pas très clair.
00:05:15
On va choisir une représentation alternative,
00:05:16
on va juste tracer la chaine des acides aminés,
00:05:19
on va afficher la lettre et la position correspondant à chaque acide aminé,
00:05:23
et on va lui donner une coloration progressive permettant d’y voir clair.
00:05:26
En bleu c’est le début de la chaine,
00:05:28
et ça va jusqu’à l’orange à la fin de la chaine.
00:05:31
Voilà, on peut mieux visualiser la forme en 3D de cette protéine,
00:05:34
et c’est cette forme qui va lui permettre de jouer son rôle, de remplir sa fonction.
00:05:38
Pour comprendre le fonctionnement d’une protéine comme celle-ci,
00:05:41
et éventuellement la manière dont on pourrait interférer avec
00:05:44
pour des raisons thérapeutiques, il faut connaitre parfaitement sa forme.
00:05:48
Le problème c’est que trouver la forme d’une protéine en général,
00:05:51
c’est franchement compliqué.
00:05:53
Connaitre la séquence des acides aminés, ça c’est plutôt facile.
00:05:57
Il suffit d’aller lire les bons endroits d’ADN ou d’ARN,
00:06:00
ce qu’on sait faire quand on fait du séquençage de génome,
00:06:02
et ça pour n’importe quelle espèce vivante.
00:06:04
La base de données UniProt recense comme ça
00:06:07
les séquences de 200 millions de protéines différentes,
00:06:10
et le compte augmente d’environ 30 millions chaque année.
00:06:13
Mais sur ces 200 millions, il n’y en a que 170 000 dont on connaisse la forme.
00:06:17
Même pas un millième.
00:06:19
Et oui le problème, c’est que pour avoir la forme d’une protéine,
00:06:22
on ne peut pas juste la mettre sous un microscope et regarder, ça ne marche pas.
00:06:26
Pour déterminer sa forme, il faut utiliser des techniques de mesure
00:06:29
comme la cristallographie aux rayons X.
00:06:31
C’est assez compliqué comme méthode.
00:06:33
Il faut avoir une quantité suffisante de la protéine en question,
00:06:36
qu’on doit isoler et purifier.
00:06:38
Ensuite on doit la cristalliser, ce qui peut demander
00:06:40
de tester une grande quantité de conditions expérimentales.
00:06:43
Si ça marche, on passe ensuite les cristaux aux rayons X
00:06:47
et on obtient ce qu’on appelle une figure de diffraction.
00:06:50
Et après un traitement mathématique, on peut si ça fonctionne bien
00:06:53
en déduire la forme assez précise de la protéine.
00:06:57
Cette technique, c’est une évolution de celle utilisée
00:07:00
par la biochimiste Rosalind Franklin
00:07:02
pour obtenir dans les années 50 cette image très connue,
00:07:04
qui a permis entre autres à Watson et Crick
00:07:06
de proposer leur modèle de la double hélice pour l’ADN.
00:07:09
Aujourd’hui la technique s’est beaucoup perfectionnée,
00:07:11
et elle permet d’obtenir une représentation précise
00:07:13
de la forme d’une protéine à environ 1 angström près,
00:07:16
un angström c’est 0.1nm, c’est à peu près la taille d’un atome.
00:07:22
Le problème de cette méthode, c’est que c’est long,
00:07:24
coûteux, et ça ne marche même pas toujours.
00:07:26
Certaines protéines comme celles qu’on trouve dans les membranes
00:07:28
sont particulièrement difficiles à cristalliser.
00:07:30
Il existe d’autres techniques comme la RMN ou la cryo-microscopie électronique,
00:07:35
mais dans l’ensemble ça reste difficile et long.
00:07:38
L’idéal, ce serait de pouvoir deviner la forme d’une protéine
00:07:41
sans avoir à faire ces expériences coûteuses.
00:07:44
Et sur le papier ça devrait être faisable :
00:07:46
vu qu’une protéine donnée adopte toujours la même forme,
00:07:49
on doit pouvoir prédire cette forme à partir de sa composition,
00:07:53
c’est à dire de la liste des acides aminés.
00:07:55
Pour voir ça, il faut comprendre le mécanisme
00:07:58
qui fait qu’une protéine acquiert une certaine forme.
00:08:00
Quand elle est synthétisée dans une cellule, comme un collier de perle,
00:08:03
elle n’a pas de configuration particulière.
00:08:06
Et c’est grâce aux interactions entre les acides aminés
00:08:09
qu’elle finit par acquérir sa forme.
00:08:11
Certains acides aminés sont chargés, positivement ou négativement,
00:08:15
et vont s’attirer ou se repousser.
00:08:16
Deux atomes de soufre de cystéine peuvent se lier entre eux.
00:08:20
Certains radicaux sont aussi hydrophobes
00:08:22
et vont plutôt se regrouper à l’intérieur de la protéine.
00:08:26
Il y a aussi ce qu’on appelle les liaisons hydrogène,
00:08:28
qui vont faire qu’entre deux acides aminés un peu éloignés,
00:08:31
il peut s’opérer un rapprochement entre le H de l’amine et le O de l’acide.
00:08:35
Et ça donne lieu à des structures particulières
00:08:38
qu’on retrouve très souvent dans les protéines.
00:08:39
La première c’est une forme de tire bouchon comme on en voit ici :
00:08:43
ça se produit quand chaque acide aminé se lie avec celui
00:08:46
qui est généralement 4 positions plus loin dans la chaine.
00:08:49
Regardez on retrouve plusieurs de ces configurations,
00:08:51
on appelle ça des hélices alpha.
00:08:54
L’autre structure typique, c’est quand la chaine se replie sur elle-même
00:08:57
pour que deux segments viennent en contact l’un sur l’autre.
00:08:59
On appelle ça les feuillets béta.
00:09:02
Et ces structures sont tellement courantes qu’on a imaginé
00:09:05
une petite représentation symbolique pour bien les visualiser
00:09:08
quand on représente des protéines.
00:09:10
Une forme de tire-bouchon pour l’hélice alpha,
00:09:12
et une flèche plate pour le feuillet béta.
00:09:14
Chaque fois que vous verrez des images de protéines,
00:09:17
vous retrouverez ces deux structures un peu partout.
00:09:20
Mais le problème c’est qu’on ne sait pas forcément deviner à l'avance
00:09:22
où elles vont se produire,
00:09:24
et en plus il y a plein d’autres déformations qui existent un peu partout,
00:09:27
et qui contribuent à donner à la protéine sa forme globale.
00:09:30
On ne connaît donc pas a priori la forme, mais ce qu’on sait,
00:09:32
c’est le principe physique qui gouverne ça.
00:09:34
C’est le fait que les interactions entre les acides aminés
00:09:37
permettent en fait de minimiser l’énergie de la molécule.
00:09:41
Un principe général en physique, c’est qu’un système cherche
00:09:43
toujours à minimiser son énergie.
00:09:45
C’est ce qui fait qu’une boule va rouler au fond d’une vallée,
00:09:48
c’est là que son énergie potentielle sera la plus faible.
00:09:51
Avec les interactions entre atomes d’une molécule, c’est pareil.
00:09:55
En se déformant une protéine fait baisser son énergie,
00:09:58
et elle se stabilisera dans son état d’énergie le plus faible.
00:10:00
Le souci c’est qu’on ne comprend pas comment ça se produit exactement.
00:10:04
Le biochimiste Levinthal a calculé un jour que pour une protéine typique,
00:10:08
il existe quelque chose comme 10 puissance 143 configurations différentes.
00:10:13
Donc il est évidemment hors de question d’essayer des formes au hasard
00:10:16
jusqu’à espérer tomber sur la bonne.
00:10:17
Le problème du repliement des protéines, c’est donc pour les biochimistes
00:10:20
d’arriver, juste à partir de la séquence des acides aminées d’une protéine,
00:10:24
à anticiper parmi la myriade de possibilités, quelle est la forme qu’elle va adopter,
00:10:29
celle qui lui permet de minimiser son énergie.
00:10:31
Ce problème du repliement des protéines, il a été évoqué pour la première fois
00:10:35
sous cette forme en 1972 par le prix Nobel Christian Anfinsen,
00:10:39
et c’est ce qui fait dire aujourd’hui
00:10:41
qu’il s’agit d’un problème vieux d’une cinquantaine d’années.
00:10:43
Évidemment depuis tout ce temps,
00:10:45
différentes équipes ont essayé de s’y attaquer,
00:10:47
en ayant recours à des simulations informatiques
00:10:50
permettant de calculer et d’optimiser la forme des protéines.
00:10:53
C’est d’ailleurs dans cette optique qu’IBM avait lancé dans les années 2000
00:10:56
le super ordinateur Blue Gene,
00:10:58
qui a été pendant quelques années l’ordinateur le plus puissant du monde.
00:11:02
Du côté des algorithmes utilisés, la méthode la plus connue est sans doutes
00:11:06
celle appelée "Rosetta", qui a été initiée en 1998 par le biochimiste David Baker.
00:11:11
Elle connu plusieurs succès dans les années 2000, et quelques développements fameux.
00:11:15
Comme le projet Rosetta@Home, qui permet à chacun de mettre
00:11:19
la puissance de son ordinateur à disposition pour les calculs,
00:11:21
ou encore le jeu video FoldIt, dont le principe est de faire s’affronter
00:11:26
des joueurs à un jeu de repliement de protéines.
00:11:29
Pour pouvoir comparer de façon objective
00:11:31
l’efficacité des différentes méthodes proposées partout dans le monde,
00:11:34
le biologiste John Moult a proposé d’organiser une sorte de compétition
00:11:38
opposant les différents algorithmes :
00:11:40
la compétition CASP.
00:11:42
Cette compétition a lieu tous les deux ans depuis 1994,
00:11:46
et se déroule selon un protocole bien précis.
00:11:49
Un comité d’organisation choisit des protéines
00:11:51
dont on ne connait que la séquence d’acides aminés.
00:11:54
D’un côté des expérimentateurs
00:11:56
travaillent à déterminer la véritable structure de la protéine,
00:11:59
le plus souvent avec des rayons X,
00:12:01
et de l’autre chaque équipe qui prend part au concours s’efforce avec ses algorithmes
00:12:05
de deviner à l’avance cette forme.
00:12:07
Et à la fin on regarde qui a été le plus proche possible de la véritable forme.
00:12:13
Dans le domaine du repliement des protéines,
00:12:15
il s’agit en quelque sorte de l’équivalent des jeux olympiques.
00:12:18
A chaque édition, plus d’une centaine d’équipes participent
00:12:21
et ce sont plusieurs dizaines de protéines qui sont utilisées pour les départager.
00:12:25
Pour pouvoir classer les différentes méthodes,
00:12:27
il faut un critère numérique, un score qui permette de les comparer.
00:12:30
Ce qui est utilisé, c’est une quantité appelée GDT :
00:12:34
en gros on prend une prédiction pour la forme d’une protéine,
00:12:37
on la compare avec la vraie forme déterminée par les expérimentateurs,
00:12:41
et on compte quel pourcentage des acides aminés sont bien positionnés.
00:12:45
Voici un exemple, ici vous voyez en bleu la prédiction et en vert la vraie structure.
00:12:52
L’accord est excellent et le GDT est très élevé.
00:12:55
Mais dans d’autres cas, la prédiction se plante et c’est beaucoup moins bon.
00:13:00
Il faut savoir aussi que dans la compétition,
00:13:02
toutes les protéines ne sont pas de la même difficulté.
00:13:04
Certaines ont en effet des séquences qui ressemblent suffisamment
00:13:07
à des protéines déjà connues, on dispose alors d’une base
00:13:11
pour essayer de deviner leur forme.
00:13:12
Mais pour les plus difficiles, la catégorie qu’on appelle FM pour Free Modelling,
00:13:17
ce sont des protéines très différentes de tout ce qu’on connaissait jusqu’ici,
00:13:20
et pour lesquelles on ne peut partir de rien.
00:13:23
C’est un peu l’épreuve reine.
00:13:25
Alors à quoi ressemblent les résultats des compétitions CASP ?
00:13:27
Le graphique que vous voyez ici représente le score médian
00:13:31
de la meilleure équipe pour chacune des compétitions CASP depuis 2006,
00:13:34
dans la catégorie Free Modelling, la plus exigeante.
00:13:38
Comme vous pouvez le voir, le GDT de la meilleure équipe
00:13:40
oscille chaque année entre 30 et 40.
00:13:43
Donc les prédictions n’ont globalement jamais été très bonnes.
00:13:46
Mais en 2018, il s’est passé un truc.
00:13:49
Une équipe a fait soudainement une percée remarquable,
00:13:52
et a atteint un GDT de 60, dominant très nettement toutes les autres.
00:13:55
Et en 2020, cette même équipe a à nouveau explosé le plafond,
00:14:00
en atteignant un GDT de 87.
00:14:03
Cette équipe, vous l’avez deviné, c’est bien sûr celle de DeepMind,
00:14:06
qui participait pour la première fois en 2018
00:14:09
avec son algorithme AlphaFold,
00:14:12
et qui vient de récidiver avec AlphaFold2.
00:14:15
En deux participations, ils semblent avoir tué la compétition.
00:14:24
DeepMind, il s’agit d’une start up londonienne
00:14:27
fondée par le neuroscientifique Demis Hassabis
00:14:29
et rachetée ensuite par Google.
00:14:31
J’ai déjà eu l’occasion d’en parler, car ce sont eux
00:14:33
qui ont conçu ces algorithmes capables d’apprendre à jouer à des jeux vidéo,
00:14:37
ou de battre les meilleurs joueurs du monde au Go.
00:14:40
Déjà un exploit que les spécialistes n’imaginaient pas arriver de si tôt.
00:14:43
Leurs méthodes se basent principalement sur la technologie du deep learning,
00:14:47
et pour ceux qui ne connaitraient pas encore,
00:14:48
je vous renvoie à mon épisode dédié sur le sujet.
00:14:51
DeepMind est donc entré dans la compétition CASP en 2018,
00:14:54
avec une approche, à l'époque, originale : l’algorithme AlphaFold,
00:14:57
qui a permis une percée remarquable.
00:14:59
A tel point que pour la compétition 2020,
00:15:01
près de la moitié des groupes avaient d’une façon ou d’une autre
00:15:04
incorporé des algorithmes de deep learning.
00:15:07
Il faut dire que DeepMind avait eu la bonne idée
00:15:09
de publier une partie de son code en OpenSource,
00:15:11
ce qui est toujours bon pour stimuler la recherche.
00:15:13
En 2020, ils sont arrivés avec un nouvel algorithme, baptisé AlphaFold2.
00:15:18
On ne sait pas encore grand chose à ce jour de cet algorithme,
00:15:21
car ils n’ont pas encore publié sur le sujet.
00:15:24
En revanche ce qu’on connait déjà,
00:15:26
c’est sa performance à la compétition CASP 2020.
00:15:29
Sur l’ensemble de la compétition, toutes catégories confondues,
00:15:32
le score GDT médian d’AlphaFold est de 92.4.
00:15:36
C’est une médiane, ça veut dire que sur certaines molécules
00:15:38
ça peut être significativement moins bien que ça,
00:15:40
mais sur d’autres c’est encore mieux.
00:15:43
En moyenne, leur erreur de distance sur le placement des acides aminés
00:15:46
est de 1.6 angström, à peine plus que la taille d’un atome.
00:15:51
On est donc dans l’ordre de grandeur de la précision des mesures expérimentales.
00:15:55
Ce que les spécialistes ont estimé, c’est que pour considérer
00:15:57
le problème du repliement des protéines comme "résolu",
00:16:00
il fallait un GDT d’au moins 90.
00:16:03
Au-delà de 90, on est aussi précis qu’une cristallographie aux rayons X.
00:16:08
Eh bien voilà on semble y être.
00:16:10
Pour vous donner une idée de l’impact de l’exploit réalisé par DeepMind,
00:16:13
voici une histoire racontée par Andrei Lupas du Max Planck Institute,
00:16:17
un des arbitres de la compétition CASP.
00:16:19
Dans un article publié dans Science,
00:16:21
il explique que les résultats d’AlphaFold 2 étaient tellement bons,
00:16:25
que les organisateurs se sont dits qu’ils avaient peut-être triché.
00:16:28
Lupas leur a donc envoyé la séquence d’une protéine particulièrement difficile,
00:16:32
sur laquelle son laboratoire bloquait depuis 10 ans,
00:16:35
malgré toutes leurs expériences.
00:16:37
Une demi-heure plus tard, il avait la réponse, et ça collait parfaitement.
00:16:40
Même si on ne connait pas tous les détails de comment fonctionne AlphaFold 2,
00:16:44
je voudrais vous donner quelques éléments, basés sur ce qui a été déjà révélé,
00:16:47
et ce qu’on sait de sa première version, AlphaFold 1.
00:16:51
Dans un monde idéal, on s’imaginerait qu’un bon algorithme de deep learning
00:16:54
serait capable de faire le job tout seul comme un grand.
00:16:57
On prend les 170 000 protéines dont on connait la structure,
00:17:00
on donne d’un côté la séquence des acides aminés
00:17:03
et de l’autre la forme, et on laisse l’algorithme apprendre tout seul.
00:17:06
Alors ça non, ça ne suffit pas, ce serait trop beau, il faut ruser.
00:17:10
AlphaFold découpe le problème en deux étapes.
00:17:13
La première essaye de fabriquer ce qu’on appelle une matrice de distance,
00:17:17
et la seconde tente de reconstituer la forme de la protéine à partir de cette matrice.
00:17:22
Alors qu’est-ce que ça veut dire cette histoire ?
00:17:24
Imaginez que je vous dise de placer 5 points sur une feuille de papier.
00:17:28
Je ne vous dit pas exactement où les placer, mais pour chaque paire de point,
00:17:32
je vous donne une distance approximative, sous la forme d’un tableau.
00:17:35
C’est ça qu’on appelle une matrice de distance.
00:17:38
À partir de la matrice, vous pouvez essayer de reconstituer approximativement
00:17:41
comment se positionnent les 5 points les uns par rapport aux autres.
00:17:45
L’idée d’AlphaFold, c’est de faire ça
00:17:46
pour les acides aminés d’une protéine, et en 3D cette fois.
00:17:50
La première partie de l’algorithme essaye de fabriquer une matrice de distance
00:17:53
à partir de la séquence, et la deuxième partie
00:17:56
de produire une forme complète à partir de la matrice.
00:17:58
Concernant cette deuxième partie, il existe des méthodes pour faire ça,
00:18:02
notamment en calculant l’énergie de la molécule
00:18:04
et en essayant de la minimiser par des petites variations.
00:18:07
Ce qu’on appelle techniquement de la "descente de gradient".
00:18:09
Maintenant comment marche la première partie de l’algorithme,
00:18:12
comment on obtient une telle matrice de distance ?
00:18:15
Comme je vous le disais,
00:18:16
on ne peut pas juste donner en entrée la séquence des acides aminés
00:18:19
et laisser un algorithme de deep learning se débrouiller, c’est trop dur.
00:18:23
Alors la stratégie de DeepMind c’est d’enrichir au maximum l’entrée
00:18:27
avec des données physicochimiques sur les relations entre acides aminés,
00:18:30
mais aussi des données issues de protéines dont on connait déjà la forme.
00:18:34
A la fin, ce qu’on a en entrée, c’est comme une sorte d’image
00:18:37
à partir de laquelle on va essayer de reconstituer la matrice de distance.
00:18:40
Sauf qu’au lieu d’être un image en 3 canaux, rouge vert bleu,
00:18:44
il faut imaginer que c’est une image qui a des centaines de canaux,
00:18:47
plus de 400 dans la première version d’AlphaFold.
00:18:50
Il y a aussi une idée assez intéressante que plusieurs équipes utilisent,
00:18:53
qui consiste à rechercher des séquences similaires dans les bases de données,
00:18:57
même si on ne connaît pas les formes associées,
00:18:59
mais juste pour essayer de voir à partir des variantes de séquences
00:19:02
quels sont les acides aminés qui jouent les rôles le plus importants dans la structure
00:19:07
et pour orchestrer le tout, DeepMind utilise ses algorithmes de DeepLearning
00:19:11
qui fonctionnent si bien sur les images,
00:19:13
afin que l’algorithme apprenne à faire le lien entre ces données
00:19:16
et la matrice de distance d’une protéine.
00:19:17
Pour parler un peu de technique, dans AlphaFold 1
00:19:20
il s’agissait de réseaux de convolution,
00:19:22
ceux qui ont connu leur heure de gloire pour la reconnaissance d’image.
00:19:25
Dans AlphaFold 2, il s’agirait plutôt de réseaux avec des mécanismes d’attention.
00:19:30
Il s’agit d’une idée assez récente qui a été proposée en 2017
00:19:33
par des chercheurs de Google, dans un article cité depuis plus de 15 000 fois.
00:19:37
Autant dire que c’est le truc à la mode, ça a notamment été utilisé
00:19:41
dans les questions de langage, comme l’algorithme GPT-3,
00:19:44
vous savez, celui qui écrit des histoires tout seul.
00:19:46
Bon dans tous les cas, il va falloir attendre la sortie de l’article scientifique
00:19:49
pour y voir clair sur la méthode,
00:19:50
et éventuellement la publication en open source du code.
00:19:54
Alors faisons le point : est-ce qu’on tient là vraiment une révolution ?
00:19:57
La première chose qu’il faut dire,
00:19:59
c’est qu’il ne s’agit pas comme parfois d’une annonce susceptible de se dégonfler.
00:20:03
On ne parle pas d’un article scientifique qui pourrait être remis en question,
00:20:06
ou dans lequel il pourrait finalement y avoir une erreur fatale.
00:20:09
On parle d’une compétition, et on peut prendre le problème dans le sens qu’on veut.
00:20:13
Ils ont tout défoncé.
00:20:14
Maintenant est-ce que ça veut dire que tout est résolu
00:20:17
et que grâce à ça on aura des nouveaux médicaments à la pelle ?
00:20:19
Pas vraiment tout de suite,
00:20:22
il faut reprendre les chiffres :
00:20:24
Le GDT médian dans la catégorie des protéines les plus difficile, c’est 87.
00:20:28
C’est une médiane, et là dedans il y en a qui sont à un GDT de 70, 60 voire moins.
00:20:34
Sur quelques protéines, AlphaFold 2 s’est complètement planté.
00:20:38
Donc l’algorithme est pour l’instant loin d’être infaillible,
00:20:41
et on ne peut pas lui faire une confiance aveugle.
00:20:43
Une détermination expérimentale de la forme restera le juge de paix.
00:20:47
Mais ce genre de travaux expérimentaux va évidemment être facilité
00:20:51
grâce aux prédictions d’AlphaFold 2.
00:20:52
Ensuite même si on arrivait à prédire parfaitement la forme,
00:20:55
tout ne serait pas gagné pour autant.
00:20:57
Il est très fréquent que dans les cellules les protéines s’associent en complexes,
00:21:01
et que la forme d’une protéine e soit pas forcément
00:21:03
celle qu’elle aurait si elle était toute seule.
00:21:05
Les protéines s’influencent les unes les autres,
00:21:06
ça dépend de la température, du Ph
00:21:08
et on ne peut pas forcément les étudier en isolation.
00:21:11
Et puis sur le plan plus fondamental, même si on devient effectivement
00:21:15
capable de prédire la forme des protéines grâce au DeepLearning,
00:21:17
ça n’est pas pour autant que l’on comprendra comment elles acquièrent ces formes,
00:21:21
par quel mécanisme, pour quelles raisons.
00:21:23
Les algorithmes de DeepLearning
00:21:25
fonctionnent souvent comme des boites noires,
00:21:27
et il restera beaucoup de choses à comprendre.
00:21:29
Toutefois, il me semble qu’on a de bonnes raisons d’être optimistes.
00:21:32
Si on prend le cas du Go, les algorithmes proposés initialement par DeepMind
00:21:37
ont ensuite rapidement progressé.
00:21:39
Et on peut penser qu’il va se passer la même chose avec AlphaFold.
00:21:42
Surtout s'ils partagent leur découverte avec d’autres chercheurs.
00:21:45
Dans tous les cas, on ne peut qu’être bluffés par ce qui s’est passé.
00:21:48
Quand le deep learning a révolutionné la reconnaissance d’image ou le jeu de go,
00:21:52
c’était tout aussi spectaculaire, mais sur des domaines
00:21:55
qui étaient des domaines traditionnels de l’intelligence artificielle.
00:21:57
Là on a des chercheurs en IA qui, peut-être pour la première fois,
00:22:01
ont débarqué avec leurs méthodes dans une discipline assez différente,
00:22:05
et ils ont cassé la baraque.
00:22:07
Moi franchement ça m’épate.
00:22:09
Voilà c’est tout pour aujourd’hui, c’était dense, on a parlé de bio,
00:22:12
de physique, de chimie, d’intelligence artificielle.
00:22:14
Si vous voulez des précisions ou des commentaires
00:22:16
sur certaines simplifications que j’ai du faire,
00:22:18
j’en parle dans le billet de blog qui accompagne la vidéo.
00:22:21
Allez lire le billet de blog.
00:22:22
Les actualités de la chaine ça se passe sur Facebook et Twitter,
00:22:25
et on se retrouve très vite pour une nouvelle vidéo.
00:22:28
A bientôt.