00:00:00
C’est une nouvelle qui a fait l’effet
d’une petite bombe
00:00:02
dans le monde de la science.
00:00:04
A grand renfort de communication,
Google vient d’annoncer
00:00:06
que sa filiale DeepMind venait
tout simplement de résoudre
00:00:10
un des problèmes les plus importants
de la biologie :
00:00:13
le repliement des protéines.
00:00:14
Il s’agit d’un problème qui résistait
aux biologistes depuis plus de 50 ans,
00:00:18
et que DeepMind a résolu grâce à ses
algorithmes d’intelligence artificielle.
00:00:22
Nous promettant au passage
que cela permettra de trouver
00:00:25
des médicaments contre
tout un tas de maladies,
00:00:27
aider à la lutte contre
le changement climatique,
00:00:29
réussite aux examens, permis de conduire,
retour de l’être aimé, etc.
00:00:32
Est-ce qu’il s’agit d’un buzz savamment
orchestré par Google ?
00:00:36
Est-ce que la nouvelle va se dégonfler
00:00:38
quand d’autres scientifiques se rendront
compte qu’il y a une faille ?
00:00:41
Eh bien, si dire que le problème est
« résolu » est un peu exagéré,
00:00:45
il faut quand même reconnaitre
qu’il s’agit d’un exploit incroyable,
00:00:47
que pas grand monde n’avait vu venir,
00:00:50
et qui va effectivement avoir un impact
énorme sur ce champ de la biologie.
00:00:53
[jingle]
00:01:00
Pour commencer, vous savez que le terme
de « protéine » a déjà un sens
00:01:03
dans le langage de tous les jours :
ce qu’on appelle couramment « les protéines »,
00:01:07
ce sont des nutriments, qu’on trouve
dans la viande, le poisson, les œufs, etc.
00:01:11
Mais en biologie, les protéines,
ce sont plus spécifiquement
00:01:14
une classe de très grosses molécules
00:01:16
qui s’occupent d’à peu près tout
dans un organisme vivant :
00:01:20
elles font bouger les muscles,
elles contrôlent le métabolisme,
00:01:23
elles servent de récepteurs, de transporteurs,
d’anticorps, d’enzymes, etc.
00:01:27
Bref, ce sont les chevilles ouvrières
de toutes les fonctions d’un organisme vivant.
00:01:31
On les compare parfois à des sortes
de nanomachines moléculaires
00:01:34
qui œuvreraient dans nos cellules.
00:01:36
Pour pouvoir assurer toutes ces fonctions,
00:01:37
il existe un très grand nombre
de protéines différentes.
00:01:40
Rien que chez l’être humain, on en compte
des dizaines de milliers,
00:01:43
et sur l’ensemble du vivant, on en connait
à ce jour près de 200 millions.
00:01:48
Évidemment ces protéines sont largement
spécifiques à une espèce,
00:01:51
et donc quand on « mange des protéines »,
ça n’est pas pour les utiliser telles quelles.
00:01:55
Elles sont découpées en briques élémentaires
00:01:57
qui sont ensuite recyclées pour fabriquer
nos propres protéines.
00:02:01
Ce qui permet cela, c’est le fait que toutes
les protéines du monde vivant
00:02:04
sont fabriquées à partir d’une liste
très restreinte de briques :
00:02:08
les acides aminés.
00:02:09
Le vivant utilise 21 types différents
d’acides aminés,
00:02:12
qui permettent de fabriquer
toutes les protéines.
00:02:15
Les acides aminés, ce sont des molécules
élémentaires
00:02:17
qui obéissent à un schéma bien précis :
00:02:19
Un atome de carbone, qu’on représente
au centre, qui possède 4 liaisons.
00:02:24
Et auquel sont attaché d’un côté
un simple atome d’hydrogène,
00:02:28
sur un autre, un groupe NH2, dit « amine »,
00:02:31
et de l’autre côté un groupe COOH
dit « acide ».
00:02:35
D’où le nom « acide aminé ».
00:02:37
Sur la dernière liaison, on peut attacher
un peu ce qu’on veut.
00:02:40
C’est ce qu’on appelle un radical.
00:02:41
Les 21 acides aminés du vivant
ont chacun un radical différent.
00:02:46
Ici vous en voyez une liste avec leur nom,
leur formule,
00:02:49
et surtout une lettre unique qu’on utilise
pour les désigner, c’est plus pratique.
00:02:53
Pour combiner les acides aminés
et créer des protéines, c’est facile :
00:02:56
ils sont simplement liés les uns aux autres
pour former une chaine.
00:03:00
Une protéine c’est juste une longue chaine
d’acides aminés,
00:03:03
et donc pour la décrire, il suffit de donner
la séquence de ces acides aminés.
00:03:07
Voici par exemple une séquence qui décrit
une protéine qu’on trouve dans le Sars-Cov2,
00:03:11
vous savez le coronavirus
responsable du Covid 19.
00:03:14
Cette protéine est assez petite, seulement
111 acides aminés.
00:03:18
Ce qui fait quand même pas loin
de 2000 atomes au total.
00:03:21
De façon générale, quand une cellule
de votre organisme
00:03:23
doit fabriquer une protéine,
il lui faut connaitre le plan de montage,
00:03:27
c’est-à-dire quels acides aminés enchainer,
et dans quel ordre.
00:03:30
Et cette information lui est justement
fournit par l’ADN.
00:03:33
Pour simplifier, un gène représente
la liste des acides aminés
00:03:37
qu’il faut enchainer pour fabriquer
ne protéine donnée,
00:03:39
même si en fait c’est plus subtil que ça.
00:03:42
Alors très bien, une protéine
c’est une longue chaine.
00:03:44
Il y a des tas de protéines qui diffèrent
00:03:46
par la séquence d’acide aminés
qui forment la chaine.
00:03:48
Et on en a plein dans le corps.
00:03:50
Mais comment elles fonctionnent ?
00:03:52
Ce qui permet aux protéines d’agir,
00:03:54
de se comporter comme des nanomachines
moléculaires,
00:03:56
c’est qu’une fois fabriquées,
00:03:57
les chaines ne restent pas comme ça
comme un bout de ficelle tout mou.
00:04:01
Elles se replient sur elles-mêmes
pour adopter une forme bien précise.
00:04:05
Chaque protéine a sa forme attitrée,
et c’est ça qui lui donne sa fonction.
00:04:10
C’est le truc essentiel avec les protéines :
ce qui leur permet de faire leur job,
00:04:14
ça n’est pas tant leur composition
exacte que leur forme.
00:04:17
Elles sont comme des machines,
et donc la forme est essentielle.
00:04:21
C’est le cas par exemple des anticorps,
00:04:22
qui ont généralement une structure
en forme de Y
00:04:24
qui leur permet de s’accrocher
aux agents pathogènes
00:04:26
afin de déclencher une réaction immunitaire.
00:04:29
Il y a aussi beaucoup de protéines
qui servent de récepteurs
00:04:31
et qui fonctionnent comme une serrure
qui attend sa clé.
00:04:34
La protéine s’active quand une molécule
de forme complémentaire vient se lier à elle.
00:04:39
C’est d’ailleurs ce mécanisme
qu’il y a derrière le principe
00:04:41
de beaucoup de médicaments,
et aussi de drogues.
00:04:44
L’importance de la forme des protéines
est telle qu’un certain nombre de maladies
00:04:47
sont dues au fait que certaines protéines
n’adoptent pas la bonne configuration.
00:04:51
On pense que c’est notamment le cas
pour des formes de phénylcétonurie,
00:04:54
ou des maladies neurodégénératives comme
les maladies d’Alzheimer ou de Parkinson.
00:04:58
Puisqu’on parle de la forme des protéines,
voyons un peu à quoi ça ressemble.
00:05:03
Ici j’ai chargé une représentation de
la protéine
00:05:05
dont j’ai déjà parlé, qu’on trouve
dans le Sars-Cov2.
00:05:07
J’ai pris celle-ci parce qu’elle est
suffisamment petite.
00:05:11
Ici c’est la représentation avec
tous les atomes,
00:05:13
donc on y voit pas très clair.
00:05:15
On va choisir une représentation alternative,
00:05:16
on va juste tracer la chaine
des acides aminés,
00:05:19
on va afficher la lettre et la position
correspondant à chaque acide aminé,
00:05:23
et on va lui donner une coloration
progressive permettant d’y voir clair.
00:05:26
En bleu c’est le début de la chaine,
00:05:28
et ça va jusqu’à l’orange
à la fin de la chaine.
00:05:31
Voilà, on peut mieux visualiser la forme
en 3D de cette protéine,
00:05:34
et c’est cette forme qui va lui permettre
de jouer son rôle, de remplir sa fonction.
00:05:38
Pour comprendre le fonctionnement
d’une protéine comme celle-ci,
00:05:41
et éventuellement la manière dont
on pourrait interférer avec
00:05:44
pour des raisons thérapeutiques, il faut
connaitre parfaitement sa forme.
00:05:48
Le problème c’est que trouver la forme
d’une protéine en général,
00:05:51
c’est franchement compliqué.
00:05:53
Connaitre la séquence des acides aminés,
ça c’est plutôt facile.
00:05:57
Il suffit d’aller lire les bons endroits
d’ADN ou d’ARN,
00:06:00
ce qu’on sait faire quand on fait
du séquençage de génome,
00:06:02
et ça pour n’importe quelle espèce vivante.
00:06:04
La base de données UniProt recense comme ça
00:06:07
les séquences de 200 millions
de protéines différentes,
00:06:10
et le compte augmente d’environ
30 millions chaque année.
00:06:13
Mais sur ces 200 millions, il n’y en a
que 170 000 dont on connaisse la forme.
00:06:17
Même pas un millième.
00:06:19
Et oui le problème, c’est que pour avoir
la forme d’une protéine,
00:06:22
on ne peut pas juste la mettre sous
un microscope et regarder, ça ne marche pas.
00:06:26
Pour déterminer sa forme, il faut utiliser
des techniques de mesure
00:06:29
comme la cristallographie aux rayons X.
00:06:31
C’est assez compliqué comme méthode.
00:06:33
Il faut avoir une quantité suffisante
de la protéine en question,
00:06:36
qu’on doit isoler et purifier.
00:06:38
Ensuite on doit la cristalliser,
ce qui peut demander
00:06:40
de tester une grande quantité
de conditions expérimentales.
00:06:43
Si ça marche, on passe ensuite les cristaux
aux rayons X
00:06:47
et on obtient ce qu’on appelle une figure
de diffraction.
00:06:50
Et après un traitement mathématique,
on peut si ça fonctionne bien
00:06:53
en déduire la forme assez précise
de la protéine.
00:06:57
Cette technique, c’est une évolution
de celle utilisée
00:07:00
par la biochimiste Rosalind Franklin
00:07:02
pour obtenir dans les années 50
cette image très connue,
00:07:04
qui a permis entre autres à Watson et Crick
00:07:06
de proposer leur modèle de
la double hélice pour l’ADN.
00:07:09
Aujourd’hui la technique s’est beaucoup
perfectionnée,
00:07:11
et elle permet d’obtenir
une représentation précise
00:07:13
de la forme d’une protéine
à environ 1 angström près,
00:07:16
un angström c’est 0.1nm,
c’est à peu près la taille d’un atome.
00:07:22
Le problème de cette méthode,
c’est que c’est long,
00:07:24
coûteux, et ça ne marche même pas toujours.
00:07:26
Certaines protéines comme celles qu’on trouve
dans les membranes
00:07:28
sont particulièrement difficiles
à cristalliser.
00:07:30
Il existe d’autres techniques comme la RMN
ou la cryo-microscopie électronique,
00:07:35
mais dans l’ensemble
ça reste difficile et long.
00:07:38
L’idéal, ce serait de pouvoir deviner
la forme d’une protéine
00:07:41
sans avoir à faire ces expériences coûteuses.
00:07:44
Et sur le papier ça devrait être faisable :
00:07:46
vu qu’une protéine donnée adopte toujours
la même forme,
00:07:49
on doit pouvoir prédire cette forme
à partir de sa composition,
00:07:53
c’est à dire de la liste des acides aminés.
00:07:55
Pour voir ça, il faut comprendre le mécanisme
00:07:58
qui fait qu’une protéine acquiert
une certaine forme.
00:08:00
Quand elle est synthétisée dans une cellule,
comme un collier de perle,
00:08:03
elle n’a pas de configuration particulière.
00:08:06
Et c’est grâce aux interactions
entre les acides aminés
00:08:09
qu’elle finit par acquérir sa forme.
00:08:11
Certains acides aminés sont chargés,
positivement ou négativement,
00:08:15
et vont s’attirer ou se repousser.
00:08:16
Deux atomes de soufre de cystéine peuvent
se lier entre eux.
00:08:20
Certains radicaux sont aussi hydrophobes
00:08:22
et vont plutôt se regrouper à l’intérieur
de la protéine.
00:08:26
Il y a aussi ce qu’on appelle
les liaisons hydrogène,
00:08:28
qui vont faire qu’entre deux acides aminés
un peu éloignés,
00:08:31
il peut s’opérer un rapprochement
entre le H de l’amine et le O de l’acide.
00:08:35
Et ça donne lieu à des structures
particulières
00:08:38
qu’on retrouve très souvent
dans les protéines.
00:08:39
La première c’est une forme de tire bouchon
comme on en voit ici :
00:08:43
ça se produit quand chaque acide aminé
se lie avec celui
00:08:46
qui est généralement 4 positions
plus loin dans la chaine.
00:08:49
Regardez on retrouve plusieurs
de ces configurations,
00:08:51
on appelle ça des hélices alpha.
00:08:54
L’autre structure typique, c’est quand
la chaine se replie sur elle-même
00:08:57
pour que deux segments
viennent en contact l’un sur l’autre.
00:08:59
On appelle ça les feuillets béta.
00:09:02
Et ces structures sont tellement courantes
qu’on a imaginé
00:09:05
une petite représentation symbolique
pour bien les visualiser
00:09:08
quand on représente des protéines.
00:09:10
Une forme de tire-bouchon
pour l’hélice alpha,
00:09:12
et une flèche plate pour le feuillet béta.
00:09:14
Chaque fois que vous verrez
des images de protéines,
00:09:17
vous retrouverez ces deux structures
un peu partout.
00:09:20
Mais le problème c’est qu’on ne sait pas
forcément deviner à l'avance
00:09:22
où elles vont se produire,
00:09:24
et en plus il y a plein d’autres déformations
qui existent un peu partout,
00:09:27
et qui contribuent à donner à la protéine
sa forme globale.
00:09:30
On ne connaît donc pas a priori la forme,
mais ce qu’on sait,
00:09:32
c’est le principe physique qui gouverne ça.
00:09:34
C’est le fait que les interactions
entre les acides aminés
00:09:37
permettent en fait de minimiser
l’énergie de la molécule.
00:09:41
Un principe général en physique,
c’est qu’un système cherche
00:09:43
toujours à minimiser son énergie.
00:09:45
C’est ce qui fait qu’une boule va rouler
au fond d’une vallée,
00:09:48
c’est là que son énergie potentielle
sera la plus faible.
00:09:51
Avec les interactions entre atomes
d’une molécule, c’est pareil.
00:09:55
En se déformant une protéine fait baisser
son énergie,
00:09:58
et elle se stabilisera dans son état
d’énergie le plus faible.
00:10:00
Le souci c’est qu’on ne comprend pas
comment ça se produit exactement.
00:10:04
Le biochimiste Levinthal a calculé un jour
que pour une protéine typique,
00:10:08
il existe quelque chose comme 10 puissance 143
configurations différentes.
00:10:13
Donc il est évidemment hors de question
d’essayer des formes au hasard
00:10:16
jusqu’à espérer tomber sur la bonne.
00:10:17
Le problème du repliement des protéines,
c’est donc pour les biochimistes
00:10:20
d’arriver, juste à partir de la séquence
des acides aminées d’une protéine,
00:10:24
à anticiper parmi la myriade de possibilités,
quelle est la forme qu’elle va adopter,
00:10:29
celle qui lui permet de minimiser son énergie.
00:10:31
Ce problème du repliement des protéines,
il a été évoqué pour la première fois
00:10:35
sous cette forme en 1972 par le prix Nobel
Christian Anfinsen,
00:10:39
et c’est ce qui fait dire aujourd’hui
00:10:41
qu’il s’agit d’un problème vieux
d’une cinquantaine d’années.
00:10:43
Évidemment depuis tout ce temps,
00:10:45
différentes équipes ont essayé
de s’y attaquer,
00:10:47
en ayant recours
à des simulations informatiques
00:10:50
permettant de calculer et d’optimiser
la forme des protéines.
00:10:53
C’est d’ailleurs dans cette optique qu’IBM
avait lancé dans les années 2000
00:10:56
le super ordinateur Blue Gene,
00:10:58
qui a été pendant quelques années
l’ordinateur le plus puissant du monde.
00:11:02
Du côté des algorithmes utilisés, la méthode
la plus connue est sans doutes
00:11:06
celle appelée "Rosetta", qui a été initiée
en 1998 par le biochimiste David Baker.
00:11:11
Elle connu plusieurs succès dans les années
2000, et quelques développements fameux.
00:11:15
Comme le projet Rosetta@Home, qui permet
à chacun de mettre
00:11:19
la puissance de son ordinateur à disposition
pour les calculs,
00:11:21
ou encore le jeu video FoldIt,
dont le principe est de faire s’affronter
00:11:26
des joueurs à un jeu de repliement
de protéines.
00:11:29
Pour pouvoir comparer de façon objective
00:11:31
l’efficacité des différentes méthodes
proposées partout dans le monde,
00:11:34
le biologiste John Moult a proposé
d’organiser une sorte de compétition
00:11:38
opposant les différents algorithmes :
00:11:40
la compétition CASP.
00:11:42
Cette compétition a lieu tous les deux ans
depuis 1994,
00:11:46
et se déroule selon un protocole bien précis.
00:11:49
Un comité d’organisation choisit
des protéines
00:11:51
dont on ne connait que la séquence
d’acides aminés.
00:11:54
D’un côté des expérimentateurs
00:11:56
travaillent à déterminer la véritable
structure de la protéine,
00:11:59
le plus souvent avec des rayons X,
00:12:01
et de l’autre chaque équipe qui prend part
au concours s’efforce avec ses algorithmes
00:12:05
de deviner à l’avance cette forme.
00:12:07
Et à la fin on regarde qui a été le plus
proche possible de la véritable forme.
00:12:13
Dans le domaine du repliement des protéines,
00:12:15
il s’agit en quelque sorte de l’équivalent
des jeux olympiques.
00:12:18
A chaque édition, plus d’une centaine
d’équipes participent
00:12:21
et ce sont plusieurs dizaines de protéines
qui sont utilisées pour les départager.
00:12:25
Pour pouvoir classer les différentes méthodes,
00:12:27
il faut un critère numérique,
un score qui permette de les comparer.
00:12:30
Ce qui est utilisé, c’est une quantité
appelée GDT :
00:12:34
en gros on prend une prédiction
pour la forme d’une protéine,
00:12:37
on la compare avec la vraie forme déterminée
par les expérimentateurs,
00:12:41
et on compte quel pourcentage des acides
aminés sont bien positionnés.
00:12:45
Voici un exemple, ici vous voyez en bleu
la prédiction et en vert la vraie structure.
00:12:52
L’accord est excellent
et le GDT est très élevé.
00:12:55
Mais dans d’autres cas, la prédiction
se plante et c’est beaucoup moins bon.
00:13:00
Il faut savoir aussi que dans la compétition,
00:13:02
toutes les protéines ne sont pas
de la même difficulté.
00:13:04
Certaines ont en effet des séquences
qui ressemblent suffisamment
00:13:07
à des protéines déjà connues,
on dispose alors d’une base
00:13:11
pour essayer de deviner leur forme.
00:13:12
Mais pour les plus difficiles, la catégorie
qu’on appelle FM pour Free Modelling,
00:13:17
ce sont des protéines très différentes
de tout ce qu’on connaissait jusqu’ici,
00:13:20
et pour lesquelles on ne peut partir de rien.
00:13:23
C’est un peu l’épreuve reine.
00:13:25
Alors à quoi ressemblent les résultats
des compétitions CASP ?
00:13:27
Le graphique que vous voyez ici représente
le score médian
00:13:31
de la meilleure équipe pour chacune
des compétitions CASP depuis 2006,
00:13:34
dans la catégorie Free Modelling,
la plus exigeante.
00:13:38
Comme vous pouvez le voir,
le GDT de la meilleure équipe
00:13:40
oscille chaque année entre 30 et 40.
00:13:43
Donc les prédictions n’ont globalement
jamais été très bonnes.
00:13:46
Mais en 2018, il s’est passé un truc.
00:13:49
Une équipe a fait soudainement
une percée remarquable,
00:13:52
et a atteint un GDT de 60, dominant
très nettement toutes les autres.
00:13:55
Et en 2020, cette même équipe a
à nouveau explosé le plafond,
00:14:00
en atteignant un GDT de 87.
00:14:03
Cette équipe, vous l’avez deviné,
c’est bien sûr celle de DeepMind,
00:14:06
qui participait pour la première fois
en 2018
00:14:09
avec son algorithme AlphaFold,
00:14:12
et qui vient de récidiver avec AlphaFold2.
00:14:15
En deux participations,
ils semblent avoir tué la compétition.
00:14:24
DeepMind, il s’agit d’une start up
londonienne
00:14:27
fondée par le neuroscientifique
Demis Hassabis
00:14:29
et rachetée ensuite par Google.
00:14:31
J’ai déjà eu l’occasion d’en parler,
car ce sont eux
00:14:33
qui ont conçu ces algorithmes capables
d’apprendre à jouer à des jeux vidéo,
00:14:37
ou de battre les meilleurs joueurs
du monde au Go.
00:14:40
Déjà un exploit que les spécialistes
n’imaginaient pas arriver de si tôt.
00:14:43
Leurs méthodes se basent principalement
sur la technologie du deep learning,
00:14:47
et pour ceux qui ne connaitraient pas encore,
00:14:48
je vous renvoie à mon épisode
dédié sur le sujet.
00:14:51
DeepMind est donc entré dans
la compétition CASP en 2018,
00:14:54
avec une approche, à l'époque, originale :
l’algorithme AlphaFold,
00:14:57
qui a permis une percée remarquable.
00:14:59
A tel point que pour la compétition 2020,
00:15:01
près de la moitié des groupes avaient
d’une façon ou d’une autre
00:15:04
incorporé des algorithmes de deep learning.
00:15:07
Il faut dire que DeepMind avait eu
la bonne idée
00:15:09
de publier une partie de son code
en OpenSource,
00:15:11
ce qui est toujours bon
pour stimuler la recherche.
00:15:13
En 2020, ils sont arrivés avec
un nouvel algorithme, baptisé AlphaFold2.
00:15:18
On ne sait pas encore grand chose
à ce jour de cet algorithme,
00:15:21
car ils n’ont pas encore publié
sur le sujet.
00:15:24
En revanche ce qu’on connait déjà,
00:15:26
c’est sa performance
à la compétition CASP 2020.
00:15:29
Sur l’ensemble de la compétition,
toutes catégories confondues,
00:15:32
le score GDT médian d’AlphaFold est de 92.4.
00:15:36
C’est une médiane, ça veut dire
que sur certaines molécules
00:15:38
ça peut être significativement
moins bien que ça,
00:15:40
mais sur d’autres c’est encore mieux.
00:15:43
En moyenne, leur erreur de distance
sur le placement des acides aminés
00:15:46
est de 1.6 angström, à peine plus que
la taille d’un atome.
00:15:51
On est donc dans l’ordre de grandeur
de la précision des mesures expérimentales.
00:15:55
Ce que les spécialistes ont estimé,
c’est que pour considérer
00:15:57
le problème du repliement des protéines
comme "résolu",
00:16:00
il fallait un GDT d’au moins 90.
00:16:03
Au-delà de 90, on est aussi précis
qu’une cristallographie aux rayons X.
00:16:08
Eh bien voilà on semble y être.
00:16:10
Pour vous donner une idée de l’impact
de l’exploit réalisé par DeepMind,
00:16:13
voici une histoire racontée par
Andrei Lupas du Max Planck Institute,
00:16:17
un des arbitres de la compétition CASP.
00:16:19
Dans un article publié dans Science,
00:16:21
il explique que les résultats d’AlphaFold 2
étaient tellement bons,
00:16:25
que les organisateurs se sont dits
qu’ils avaient peut-être triché.
00:16:28
Lupas leur a donc envoyé la séquence
d’une protéine particulièrement difficile,
00:16:32
sur laquelle son laboratoire bloquait
depuis 10 ans,
00:16:35
malgré toutes leurs expériences.
00:16:37
Une demi-heure plus tard, il avait la réponse,
et ça collait parfaitement.
00:16:40
Même si on ne connait pas tous les détails
de comment fonctionne AlphaFold 2,
00:16:44
je voudrais vous donner quelques éléments,
basés sur ce qui a été déjà révélé,
00:16:47
et ce qu’on sait de sa première version,
AlphaFold 1.
00:16:51
Dans un monde idéal, on s’imaginerait
qu’un bon algorithme de deep learning
00:16:54
serait capable de faire le job
tout seul comme un grand.
00:16:57
On prend les 170 000 protéines dont
on connait la structure,
00:17:00
on donne d’un côté la séquence
des acides aminés
00:17:03
et de l’autre la forme, et on laisse
l’algorithme apprendre tout seul.
00:17:06
Alors ça non, ça ne suffit pas,
ce serait trop beau, il faut ruser.
00:17:10
AlphaFold découpe le problème
en deux étapes.
00:17:13
La première essaye de fabriquer
ce qu’on appelle une matrice de distance,
00:17:17
et la seconde tente de reconstituer la forme
de la protéine à partir de cette matrice.
00:17:22
Alors qu’est-ce que ça veut dire
cette histoire ?
00:17:24
Imaginez que je vous dise de placer 5 points
sur une feuille de papier.
00:17:28
Je ne vous dit pas exactement où les placer,
mais pour chaque paire de point,
00:17:32
je vous donne une distance approximative,
sous la forme d’un tableau.
00:17:35
C’est ça qu’on appelle
une matrice de distance.
00:17:38
À partir de la matrice, vous pouvez essayer
de reconstituer approximativement
00:17:41
comment se positionnent les 5 points
les uns par rapport aux autres.
00:17:45
L’idée d’AlphaFold, c’est de faire ça
00:17:46
pour les acides aminés d’une protéine,
et en 3D cette fois.
00:17:50
La première partie de l’algorithme essaye
de fabriquer une matrice de distance
00:17:53
à partir de la séquence,
et la deuxième partie
00:17:56
de produire une forme complète
à partir de la matrice.
00:17:58
Concernant cette deuxième partie,
il existe des méthodes pour faire ça,
00:18:02
notamment en calculant
l’énergie de la molécule
00:18:04
et en essayant de la minimiser
par des petites variations.
00:18:07
Ce qu’on appelle techniquement
de la "descente de gradient".
00:18:09
Maintenant comment marche la première
partie de l’algorithme,
00:18:12
comment on obtient une telle matrice
de distance ?
00:18:15
Comme je vous le disais,
00:18:16
on ne peut pas juste donner en entrée
la séquence des acides aminés
00:18:19
et laisser un algorithme de deep learning
se débrouiller, c’est trop dur.
00:18:23
Alors la stratégie de DeepMind
c’est d’enrichir au maximum l’entrée
00:18:27
avec des données physicochimiques
sur les relations entre acides aminés,
00:18:30
mais aussi des données issues de protéines
dont on connait déjà la forme.
00:18:34
A la fin, ce qu’on a en entrée,
c’est comme une sorte d’image
00:18:37
à partir de laquelle on va essayer
de reconstituer la matrice de distance.
00:18:40
Sauf qu’au lieu d’être un image en 3 canaux,
rouge vert bleu,
00:18:44
il faut imaginer que c’est une image
qui a des centaines de canaux,
00:18:47
plus de 400 dans la première
version d’AlphaFold.
00:18:50
Il y a aussi une idée assez intéressante
que plusieurs équipes utilisent,
00:18:53
qui consiste à rechercher des séquences
similaires dans les bases de données,
00:18:57
même si on ne connaît pas
les formes associées,
00:18:59
mais juste pour essayer de voir à partir
des variantes de séquences
00:19:02
quels sont les acides aminés qui jouent
les rôles le plus importants dans la structure
00:19:07
et pour orchestrer le tout, DeepMind
utilise ses algorithmes de DeepLearning
00:19:11
qui fonctionnent si bien sur les images,
00:19:13
afin que l’algorithme apprenne
à faire le lien entre ces données
00:19:16
et la matrice de distance d’une protéine.
00:19:17
Pour parler un peu de technique,
dans AlphaFold 1
00:19:20
il s’agissait de réseaux de convolution,
00:19:22
ceux qui ont connu leur heure de gloire
pour la reconnaissance d’image.
00:19:25
Dans AlphaFold 2, il s’agirait plutôt
de réseaux avec des mécanismes d’attention.
00:19:30
Il s’agit d’une idée assez récente
qui a été proposée en 2017
00:19:33
par des chercheurs de Google, dans un article
cité depuis plus de 15 000 fois.
00:19:37
Autant dire que c’est le truc à la mode,
ça a notamment été utilisé
00:19:41
dans les questions de langage,
comme l’algorithme GPT-3,
00:19:44
vous savez, celui qui écrit des histoires
tout seul.
00:19:46
Bon dans tous les cas, il va falloir
attendre la sortie de l’article scientifique
00:19:49
pour y voir clair sur la méthode,
00:19:50
et éventuellement la publication
en open source du code.
00:19:54
Alors faisons le point : est-ce qu’on tient
là vraiment une révolution ?
00:19:57
La première chose qu’il faut dire,
00:19:59
c’est qu’il ne s’agit pas comme parfois
d’une annonce susceptible de se dégonfler.
00:20:03
On ne parle pas d’un article scientifique
qui pourrait être remis en question,
00:20:06
ou dans lequel il pourrait finalement
y avoir une erreur fatale.
00:20:09
On parle d’une compétition, et on peut
prendre le problème dans le sens qu’on veut.
00:20:13
Ils ont tout défoncé.
00:20:14
Maintenant est-ce que ça veut dire
que tout est résolu
00:20:17
et que grâce à ça on aura des nouveaux
médicaments à la pelle ?
00:20:19
Pas vraiment tout de suite,
00:20:22
il faut reprendre les chiffres :
00:20:24
Le GDT médian dans la catégorie des protéines
les plus difficile, c’est 87.
00:20:28
C’est une médiane, et là dedans il y en a
qui sont à un GDT de 70, 60 voire moins.
00:20:34
Sur quelques protéines,
AlphaFold 2 s’est complètement planté.
00:20:38
Donc l’algorithme est pour l’instant
loin d’être infaillible,
00:20:41
et on ne peut pas lui faire
une confiance aveugle.
00:20:43
Une détermination expérimentale de la forme
restera le juge de paix.
00:20:47
Mais ce genre de travaux expérimentaux
va évidemment être facilité
00:20:51
grâce aux prédictions d’AlphaFold 2.
00:20:52
Ensuite même si on arrivait à prédire
parfaitement la forme,
00:20:55
tout ne serait pas gagné pour autant.
00:20:57
Il est très fréquent que dans les cellules
les protéines s’associent en complexes,
00:21:01
et que la forme d’une protéine
e soit pas forcément
00:21:03
celle qu’elle aurait si elle était toute seule.
00:21:05
Les protéines s’influencent les unes
les autres,
00:21:06
ça dépend de la température, du Ph
00:21:08
et on ne peut pas forcément
les étudier en isolation.
00:21:11
Et puis sur le plan plus fondamental,
même si on devient effectivement
00:21:15
capable de prédire la forme des protéines
grâce au DeepLearning,
00:21:17
ça n’est pas pour autant que l’on comprendra
comment elles acquièrent ces formes,
00:21:21
par quel mécanisme, pour quelles raisons.
00:21:23
Les algorithmes de DeepLearning
00:21:25
fonctionnent souvent comme
des boites noires,
00:21:27
et il restera beaucoup de choses
à comprendre.
00:21:29
Toutefois, il me semble qu’on a de bonnes
raisons d’être optimistes.
00:21:32
Si on prend le cas du Go, les algorithmes
proposés initialement par DeepMind
00:21:37
ont ensuite rapidement progressé.
00:21:39
Et on peut penser qu’il va se passer
la même chose avec AlphaFold.
00:21:42
Surtout s'ils partagent leur découverte
avec d’autres chercheurs.
00:21:45
Dans tous les cas, on ne peut qu’être bluffés
par ce qui s’est passé.
00:21:48
Quand le deep learning a révolutionné
la reconnaissance d’image ou le jeu de go,
00:21:52
c’était tout aussi spectaculaire,
mais sur des domaines
00:21:55
qui étaient des domaines traditionnels
de l’intelligence artificielle.
00:21:57
Là on a des chercheurs en IA qui,
peut-être pour la première fois,
00:22:01
ont débarqué avec leurs méthodes
dans une discipline assez différente,
00:22:05
et ils ont cassé la baraque.
00:22:07
Moi franchement ça m’épate.
00:22:09
Voilà c’est tout pour aujourd’hui,
c’était dense, on a parlé de bio,
00:22:12
de physique, de chimie,
d’intelligence artificielle.
00:22:14
Si vous voulez des précisions
ou des commentaires
00:22:16
sur certaines simplifications
que j’ai du faire,
00:22:18
j’en parle dans le billet de blog
qui accompagne la vidéo.
00:22:21
Allez lire le billet de blog.
00:22:22
Les actualités de la chaine
ça se passe sur Facebook et Twitter,
00:22:25
et on se retrouve très vite
pour une nouvelle vidéo.
00:22:28
A bientôt.