Qu'est-ce que le Deep Research d'OpenAI ?

C'est un mode dans ChatGPT qui permet de poser des requêtes complexes et d'utiliser divers outils pour obtenir des réponses.

GAA est un benchmark qui évalue les capacités des modèles d'IA à accomplir des tâches complexes.

Comment les benchmarks d'IA ont-ils évolué ?

Ils sont passés de l'évaluation de la connaissance à des tâches plus complexes et pratiques, comme l'analyse de données.

Pourquoi est-il important de créer des benchmarks adaptés ?

Pour mesurer efficacement les capacités des modèles d'IA dans des contextes réels et éviter la saturation des benchmarks.

Qu'est-ce que le reinforcement learning ?

C'est une méthode d'apprentissage où les modèles apprennent à partir de leurs propres expériences et tentatives.

Quels sont les défis des benchmarks actuels ?

Ils peuvent être saturés ou ne pas refléter les capacités réelles des modèles d'IA.

Comment les modèles d'IA peuvent-ils être évalués de manière plus efficace ?

En utilisant des benchmarks synthétiques basés sur des données spécifiques à un domaine.

Quelles sont les prochaines étapes pour les benchmarks d'IA ?

Développer des benchmarks qui mesurent des tâches complexes et réelles, comme l'analyse de données.

L'IA vient de passer un cap énorme (mais personne n'en parle)

00:37:38

https://www.youtube.com/watch?v=biZX5cnQ_UU

Summary

TLDRCette vidéo explore les avancées récentes dans les modèles d'IA, en mettant l'accent sur le Deep Research d'OpenAI, qui permet des requêtes complexes et l'utilisation d'outils variés. Les intervenants discutent des benchmarks comme GAA, leur évolution et l'impact des modèles de raisonnement. Ils soulignent l'importance de créer des benchmarks adaptés aux tâches réelles pour évaluer efficacement les capacités des modèles d'IA. La conversation aborde également les défis de l'évaluation des modèles et l'importance du reinforcement learning dans l'apprentissage des modèles d'IA.

Takeaways

🚀 Le Deep Research d'OpenAI permet des requêtes complexes.
📊 GAA est un benchmark pour évaluer les capacités des modèles d'IA.
🔍 Les benchmarks évoluent vers des tâches pratiques et réelles.
⚖️ L'évaluation des modèles d'IA doit être adaptée aux contextes réels.
🧠 Le reinforcement learning aide les modèles à apprendre de leurs expériences.
📈 Les benchmarks peuvent devenir saturés et ne pas refléter les capacités réelles.
🛠️ Des benchmarks synthétiques peuvent être créés pour des domaines spécifiques.
🔮 L'avenir des benchmarks d'IA se concentre sur des tâches complexes et utiles.

Timeline

00:00:00 - 00:05:00
L'intervenant exprime sa lassitude face aux nouveaux modèles d'IA, jusqu'à ce qu'il découvre Deep Research d'OpenAI, qui permet des requêtes complexes et change sa façon de travailler. Il s'interroge sur les avancées techniques derrière ces modèles.
00:05:00 - 00:10:00
Il mentionne un partenariat avec Mammou AI, qui propose une interface rassemblant divers modèles d'IA à un prix abordable, et introduit les créateurs du benchmark GAA, qui vont expliquer ses résultats et l'innovation d'OpenAI.
00:10:00 - 00:15:00
Les créateurs de GAA discutent de leur parcours et de la nécessité d'évaluer les capacités des agents d'IA, en se concentrant sur la création de tâches complexes et utiles pour les utilisateurs.
00:15:00 - 00:20:00
Ils expliquent comment ils ont mesuré la complexité des tâches en fonction du nombre d'étapes et d'outils nécessaires, et partagent des exemples de questions de différents niveaux de difficulté.
00:20:00 - 00:25:00
Les créateurs de GAA partagent leurs expériences avec les modèles d'IA de l'époque, notant que les performances étaient médiocres, et discutent des défis liés à la création de questions vérifiables et complexes.
00:25:00 - 00:30:00
Ils abordent la saturation des benchmarks précédents, soulignant que les modèles atteignaient des scores élevés sur des questions devenues faciles, et l'importance de créer des évaluations qui mesurent des capacités plus avancées.
00:30:00 - 00:37:38
Enfin, ils discutent des nouveaux benchmarks, comme Brow Comp, qui évaluent des tâches complexes et réelles, et de l'évolution vers des évaluations plus pertinentes qui mesurent la capacité des modèles à résoudre des problèmes concrets.

Mind Map

Video Q&A

Qu'est-ce que le Deep Research d'OpenAI ?
C'est un mode dans ChatGPT qui permet de poser des requêtes complexes et d'utiliser divers outils pour obtenir des réponses.
Qu'est-ce que GAA ?
GAA est un benchmark qui évalue les capacités des modèles d'IA à accomplir des tâches complexes.
Comment les benchmarks d'IA ont-ils évolué ?
Ils sont passés de l'évaluation de la connaissance à des tâches plus complexes et pratiques, comme l'analyse de données.
Pourquoi est-il important de créer des benchmarks adaptés ?
Pour mesurer efficacement les capacités des modèles d'IA dans des contextes réels et éviter la saturation des benchmarks.
Qu'est-ce que le reinforcement learning ?
C'est une méthode d'apprentissage où les modèles apprennent à partir de leurs propres expériences et tentatives.
Quels sont les défis des benchmarks actuels ?
Ils peuvent être saturés ou ne pas refléter les capacités réelles des modèles d'IA.
Comment les modèles d'IA peuvent-ils être évalués de manière plus efficace ?
En utilisant des benchmarks synthétiques basés sur des données spécifiques à un domaine.
Quelles sont les prochaines étapes pour les benchmarks d'IA ?
Développer des benchmarks qui mesurent des tâches complexes et réelles, comme l'analyse de données.

View more video summaries

Get instant access to free YouTube video summaries powered by AI!

Subtitles

Auto Scroll:

00:00:00
Ça fait quelques mois que j'avoue que je
00:00:01
me suis lassé de suivre les nouveaux
00:00:03
modèles d' DIIA entre méta open AI
00:00:05
anthropique. À chaque annonce, c'est
00:00:07
intéressant mais j'avais la sensation
00:00:09
qu'on atteignait une sorte de plateau,
00:00:11
rien de révolutionnaire. Et puis il y a
00:00:14
eu Deep research d'open AI. C'est un
00:00:16
mode spécifique dans chat GPT où au lieu
00:00:18
de lui poser une question simple, vous
00:00:20
pouvez lui demander une requête vraiment
00:00:22
complexe. Et là, c'est magique plutôt
00:00:25
que de répondre instantanément comme
00:00:27
d'habitude, il boucle, il utilise des
00:00:29
outils, il a accès à un internet même
00:00:30
pour lire des PDF ou des images. Et pour
00:00:34
la première fois depuis longtemps, je me
00:00:36
suis pris une claque monumentale et sans
00:00:39
exagération, ma façon de travailler a
00:00:41
complètement changé. Maintenant, je fais
00:00:43
au moins 10 10 par jour pour mes
00:00:46
rapports, mes comparaisons avant
00:00:47
d'acheter des choses tout le temps. Mais
00:00:49
il y a un truc qui m'a obsédé, c'est
00:00:51
qu'est-ce qui a changé techniquement
00:00:53
dans ces modèles pour que ça marche
00:00:55
aussi bien ? Est-ce que c'est juste le
00:00:56
modèle O3 avec une connexion internet ou
00:00:59
est-ce que ça va plus loin que ça ?
00:01:01
C'est en cherchant ces réponses que je
00:01:03
suis tombé sur un benchmark. Il
00:01:04
s'appelle GAA et on a eu le privilège de
00:01:08
recevoir ses créateurs. Ils vont nous
00:01:09
expliquer ce graphique que vous voyez à
00:01:12
l'écran. ce que les thinking models ont
00:01:14
vraiment débloqué mais surtout et c'est
00:01:16
moins connu, quelle est la sauce secrète
00:01:18
d'open AI qui fait que deep Research
00:01:20
marche mieux que toute la concurrence.
00:01:22
Mais juste avant, j'ai justement un
00:01:24
message pour tous ceux qui aimeraient
00:01:25
utiliser les meilleurs modèles DI mais
00:01:28
qui trouvent que l'addition commence à
00:01:29
être salée. Notre partenaire Mammou AI
00:01:32
propose une interface unique qui les
00:01:34
rassemble tous. Et quand je dis tous, je
00:01:37
parle du nouveau Claude Sonet 4, Jamini
00:01:39
2.5 Pro Deepsic, mais aussi les nouveaux
00:01:42
modèles d'images comme GPT imag, flux
00:01:45
contexte ou mi-journée. Donc plus jamais
00:01:48
peur de rater un truc car ils mettent
00:01:50
constamment cette liste à jour avec les
00:01:52
nouveautés. Et là où ça devient vraiment
00:01:54
intéressant, c'est quand on parle du
00:01:56
prix car tout ça vous l'avez pour 10 €
00:01:59
par mois. Ça paraît fou quand on sait
00:02:01
que l'abonnement à chat GPT seul coûte
00:02:03
20 dollars. Et vous pourrez même
00:02:04
utiliser le chat vocal de chat GPT ou
00:02:07
accéder à Perplexity de Research. Je
00:02:10
vous mets le lien en description et on
00:02:11
reprend. Vous, c'était quoi votre
00:02:13
cheminement pour arriver à Ga justement
00:02:15
? À la base, c'est euh Thomas Wolf de
00:02:18
Hugging Face, Thomas Sial de Meta euh
00:02:20
qui sont pote en gros et euh qui ont
00:02:23
organiser un déjeuner dans Paris euh
00:02:25
dans un italien et où euh Thomas Siellom
00:02:27
euh t'a ramené et Thomas Wolf m'a
00:02:29
ramené. Euh moi à l'époque je
00:02:30
travaillais sur de l'évaluation et euh
00:02:32
vous bossiez sur les prémisses des
00:02:34
agents parce que c'est 2013 quand même
00:02:35
donc ça n'existait pas du tout. Et donc
00:02:37
la question s'est fait de bah comment
00:02:38
est-ce qu'on va s'assurer que on peut
00:02:41
dire ça ça va être un bon agent.
00:02:43
D'ailleurs, le papier parle d'assistant
00:02:45
et pas d'agent à l'époque. Et ça, ça va
00:02:47
pas être un bon agent/assistant. C'était
00:02:49
quoi vos vos premières intuitions avant
00:02:50
de de vous lancer dans ce ce projet-là ?
00:02:53
À la base, la question qui s'est posée
00:02:54
sur GAA, c'est comment est-ce qu'on
00:02:56
mesure des capacités dont on n'est pas
00:02:58
encore sûr qu'elles auront lieu et
00:02:59
qu'elles seront possibles ? et on savait
00:03:02
qu'on voulait une évaluation qui soit
00:03:04
quelque chose de difficile pour les
00:03:06
modèles. Et la grande question qu'on
00:03:08
s'est posé sur les premiers mois de
00:03:09
brainstorming autour de GAA, c'était
00:03:11
comment est-ce qu'on crée des tâches
00:03:13
pour des assistants ancrés dans le réel
00:03:15
qui vont être utiles à des gens ? Mais à
00:03:16
l'époque, c'était plus de la lecture sur
00:03:18
internet que de l'écriture pour faire
00:03:20
des rapports et autres. Et comment
00:03:22
est-ce qu'on mesurait la complexité ?
00:03:23
Notre vision à l'époque, c'était plus tu
00:03:25
dois suivre un grand nombre d'étapes,
00:03:27
plus tu dois utiliser un grand nombre
00:03:29
d'outils, plus c'est complexe. Par
00:03:31
exemple, lire un PDF, c'est un outil.
00:03:33
Interpréter sur une image, c'est un
00:03:35
outil. Chercher sur internet, c'est un
00:03:36
outil. En gros, les questions de niveau
00:03:39
1, c'était les questions qui allaient
00:03:40
être faciles à débloquer dans l'année.
00:03:42
C'était des questions qui nécessitaient
00:03:43
très peu d'outils, très peu d'étapes. À
00:03:45
l'inverse, les questions de niveau 3, on
00:03:46
est entre 15 et 40 étapes. Ça donnait
00:03:48
quoi au début en fait quand vous avez
00:03:49
essayé vos vos modèles sur GAA ? Ben, on
00:03:51
testait les questions sur euh les
00:03:53
modèles qui étaient disponibles à
00:03:54
l'époque et donc il y avait globalement
00:03:55
que chat GPT qui était facilement
00:03:57
accessible. Euh alors je sais pas si tu
00:03:59
te rappelles mais à ce moment-là, Open
00:04:00
Avait tenté une expérience où il y avait
00:04:02
un un app store de tools que tu pouvais
00:04:04
connecter à à chat GPT, mais en vérité,
00:04:07
il y a peu peu de ces tools marchaient
00:04:08
vraiment. Donc ce que je faisais, c'est
00:04:09
que je sélectionnais à la main ceux dont
00:04:12
je pensais qui correspondait à peu près
00:04:13
à la question, ce qui est déjà une aide
00:04:15
énorme pour pour le modèle. Et c'était
00:04:17
très mauvais. les modèles en moyenne
00:04:19
faisaient que quelques pourc moins de 10
00:04:20
% en tout cas de succès. Et pour donner
00:04:22
un exemple de de quels sont les les ces
00:04:25
tâes justement difficile que que tu leur
00:04:27
demandais, on a fait quelques
00:04:29
traductions. Donc par exemple calculer
00:04:31
le pourcentage de matière grasse dans
00:04:32
une glace. Et donc ça c'est une question
00:04:35
de niveau 2. Et donc pour donner la
00:04:36
traduction c'est si cette peinte entière
00:04:38
est composée de crèmes glacées, de
00:04:40
combien de pourcent est-elle supérieure
00:04:41
ou inférieure aux normes fédérales
00:04:43
américaines en matière de tenneur en
00:04:45
matière grasse ? Là, on comprend
00:04:46
intuitivement qu'il il va y avoir besoin
00:04:48
de d'un peu de temps, quoi. Ce qu'il
00:04:50
faut préciser sur la question de niveau
00:04:51
2, c'est qu'on fournit une pièce jointe.
00:04:53
Donc, il y avait déjà la lecture de
00:04:54
l'image, extraire l'information du bon
00:04:57
endroit de l'image, aller faire la
00:04:58
recherche des standards fédéraux, il me
00:04:59
semble qu'on contrôle la question avec
00:05:01
Wikipédia. Donc, aller récupérer
00:05:02
l'information, comparer les deux, sortir
00:05:04
un score. Ça ça fait en gros h étapes à
00:05:06
peu près. Là, niveau 3, on passe un cap.
00:05:10
Donc l'astronaute de la NASA, là je vous
00:05:12
fais la traduction dans l'image
00:05:14
astronomique du jour de la NASA du 21
00:05:16
janvier 2006. Donc là tu la donnes pas à
00:05:18
l'image ? Non, il doit il doit la
00:05:19
trouver tout seul. Tout à fait. Deux
00:05:21
astronautes sont visibles dont l'un
00:05:22
semble beaucoup plus petit que l'autre.
00:05:24
En août 2023, parmi les astronautes du
00:05:26
groupe de la NASA auquel appartenait
00:05:28
l'astronaute le plus petit, donc là déjà
00:05:30
moi je dois me concentrer. Lequel a
00:05:32
passé le moins de temps dans l'espace et
00:05:35
combien de minutes a passé l'astronaute
00:05:37
le plus petit dans l'espace ? Et ça pour
00:05:39
répondre à cette question, il faut
00:05:41
combien d'étapes ? Une vingtaine
00:05:42
d'étapes, je dirais. une vingtaine
00:05:43
d'étapes et puis peut-être quelque chose
00:05:45
qui est plus parlant que le nombre
00:05:46
d'étapes, c'est aussi et une mesure
00:05:47
qu'on commence à utiliser de plus en
00:05:48
plus avec les les agences, c'est bah le
00:05:50
temps en fait qu'un humain mettrait pour
00:05:51
faire cette tâche. Je pense qu'on a été
00:05:53
un des premiers papiers à dire combien
00:05:55
de temps prenaient nos tâches en moyenne
00:05:57
et je pense que ça c'est quelques
00:05:58
minutes, quelques dizaines de minutes,
00:05:59
peut-être 20 minutes, tu arrives à la
00:06:01
bonne réponse. Mais on a des questions
00:06:02
qui sont un peu plus un peu plus tricky.
00:06:04
Par exemple, tu as une question sur
00:06:05
Zofice et où il faut trouver le bureau
00:06:08
de Zofice, la version anglaise et pas
00:06:11
américaine sur Google Maps et indiquer
00:06:13
je crois le nombre de plots de couleur
00:06:14
jaune devant à une date donnée sur
00:06:17
Google Maps, tu vois en Street View par
00:06:19
exemple. Ouais. Donc là, c'est là on est
00:06:20
plus dans 2 minutes. Là c'est là ça
00:06:22
prend plus de temps que tu a compter les
00:06:24
plots et cetera. Ouais. On avait même
00:06:25
essayé de faire des petites questions
00:06:26
d'intmark
00:06:28
mais on avait pas réussi à faire des
00:06:30
choses qui avaient une seule bonne
00:06:31
réponse, tu vois. Donc on pouvait,
00:06:32
c'était trop dur de les vérifier mais
00:06:34
donc on était frustré. Mais on c'est ça
00:06:35
qui est ce qui est super dur en fait
00:06:37
c'estd que ton benchmark il doit mesurer
00:06:40
avec le bon niveau de difficulté une
00:06:42
donnée qui est non ambigue. Oui. Parce
00:06:45
que tu veux pas le le vérifier à la main
00:06:46
j'imagine il y a par exemple il y a
00:06:48
combien de questions dans un benchmark
00:06:50
comme ça ? Là il y en a 460 quelque
00:06:51
chose. 460 quand même à peu près. Au
00:06:53
moment où vous publiez le papier les
00:06:55
premiers modèles, vous les vous les
00:06:57
testez vous-même au sein du papier et
00:06:59
ils sont catastrophiques. Hm hm. Et tant
00:07:01
mieux. C'est-à-dire vous avez un bon
00:07:02
benchmark justement ce qui va permettre
00:07:04
de mesurer la progression et derrière la
00:07:05
l'intérêt c'est que ça ça crée un une
00:07:07
carotte en fait c'est un peu ça. Toutes
00:07:09
les prochaines entreprises vont avoir
00:07:11
envie de se battre pour augmenter les
00:07:12
pourcents sur GAA par exemple. C'est ça
00:07:14
qui s'est passé typiquement. C'est ce
00:07:15
qu'on veut qu'il se passe. Et en gros ce
00:07:17
qui est intéressant c'est que ce qu'on
00:07:18
voit au fil du temps, c'est que au début
00:07:20
on avait très peu de soumission pendant
00:07:21
la première année et là en début d'année
00:07:24
on a juste augmenté le nombre de
00:07:25
soumissions. On le voit sur ces figures
00:07:27
là. vraiment sur le trimestre de
00:07:29
l'année, on a quatre ou cin fois toutes
00:07:31
les soumissions qu'on a eu avant. Et ça
00:07:33
c'est très intéressant rien que de rien
00:07:35
qu'à voir les la shape de la de la
00:07:37
courbe. On comprend que cette impression
00:07:40
qu'on peut avoir un peu de l'extérieur
00:07:42
que depuis un an ça bouge plus trop. En
00:07:44
fait, c'est absolument pas vrai. Et je
00:07:46
trouve que justement voir les exemples,
00:07:47
ça permet de se de comprendre qu'est-ce
00:07:49
qui a changé. Justement avant de
00:07:51
d'expliquer qui gagne et pourquoi,
00:07:53
est-ce qu'on peut expliquer c'était quoi
00:07:56
avant GAA les benchmark qui existaient ?
00:07:59
Parce que là le le fait que ça commence
00:08:00
à 10 % pour ceux qui qui ont peut-être
00:08:02
regardé régulièrement les benchmark, ça
00:08:03
peut étonner. On voyait beaucoup que ce
00:08:05
soit Google ou Anthopiic ou Open AI ou
00:08:08
Facebook ou Meta pardon publier leurs
00:08:11
résultats sur des benchmarks qui
00:08:13
arrivaient à des 90 % 80 % de succès, ce
00:08:16
qui impressionne évidemment. Mais est-ce
00:08:18
que c'est bien déjà ? C'est la première
00:08:20
question. Et deuxièmement, pourquoi ?
00:08:23
Donc il y a plusieurs aspects. La
00:08:24
première chose, c'est euh
00:08:26
historiquement, les premiers benchmark
00:08:27
qui sont sortis, c'était des benchmarks
00:08:29
de connaissance. C'est-à-dire que tu
00:08:31
allait payer euh des annotateurs un peu
00:08:32
partout dans le monde et tu allais leur
00:08:34
demander d'écrire des questions qui
00:08:36
étaient inspirées de Wikipédia et cetera
00:08:37
et cetera. Et c'était de la connaissance
00:08:39
qui à l'époque, beaucoup de ces
00:08:41
benchmarks sont sortis entre 2017 et
00:08:43
genre 2021 étit dur à trouver avec les
00:08:46
modèles de l'époque, mais ce sont des
00:08:48
benchmark qui sont devenus extrêmement
00:08:49
faciles au fur et à mesure que la
00:08:51
capacité des modèles a augmenté. Ça,
00:08:53
c'est un phénomène qu'on appelle la
00:08:54
saturation. C'est-à-dire que au début un
00:08:56
benchmark est difficile. Il y a un
00:08:58
moment où les capacités des modèles font
00:09:00
que les questions deviennent très
00:09:01
simples à résoudre et du coup tout le
00:09:03
monde atteint du 90 % performance
00:09:05
humaine. Et dans ce cas-là, le benchmark
00:09:07
ne sert plus à rien parce que c'est
00:09:08
comme évaluer un lycéen sur des
00:09:09
problèmes de 6e. Alors s'il échou, il y
00:09:11
a un problème mais normalement tout le
00:09:14
monde est bon. C'est pas une info
00:09:15
passionnante quoi. Exactement. Et donc
00:09:17
typiquement le fait que à cette époque
00:09:20
là on voit des benchmark qui font 90 %
00:09:23
en réalité c'est pas réjouissant. Ça
00:09:24
veut dire que on ne savait pas mesurer
00:09:26
l'étape d'après. En fait, c'est un peu
00:09:27
ça en fait. Mais c'est parce que c'est
00:09:29
très très difficile de mesurer l'étape
00:09:30
d'après. Mesurer l'étape d'après, ça
00:09:32
veut dire que tu as déjà anticipé
00:09:35
quelles sont les prochaines capacités
00:09:36
qui vont être débloquées par les
00:09:37
modèles. Et c'est le truc cœur de
00:09:39
l'évaluation. Ton évaluation, elle te
00:09:41
sert en gros à trois choses. Elle te
00:09:43
sert à regarder où est-ce que tu en es
00:09:45
maintenant dans les capacités, ce qui va
00:09:47
permettre à toi de choisir le meilleur
00:09:49
modèle pour ton cas d'usage et cetera.
00:09:50
Elle permet aux gens qui entraînent leur
00:09:52
modèle de vérifier que leur méthode
00:09:53
d'entraînement marche bien et après elle
00:09:55
nous permettent à nous chercheurs du
00:09:57
domaine de voir où est-ce qu'on va en
00:10:00
fait. Et là on a des évaluations qui
00:10:01
deviennent les étoiles polaires du
00:10:03
domaine et tout le monde se regroupe
00:10:05
autour de ça et les gens du coup font
00:10:07
consensus. C'est ce qui s'est passé pour
00:10:08
MMLU puis Mat puis GAA par exemple. Et
00:10:10
mo un truc qui je pense qu'il faut qu'
00:10:12
qu'il faut aborder qui est vachement lié
00:10:14
au benchmark, c'est justement parce
00:10:16
qu'il y a un tel enjeu sur la cricité du
00:10:19
benchmark et sur à quel point cette
00:10:20
valeur elle va influer des choix
00:10:22
d'écosystèmes, des choix même
00:10:23
d'industrie qui vont acheter ou pas. Ça
00:10:26
fait que il y a des problèmes parfois de
00:10:28
pollution. Est-ce que vous pouvez
00:10:30
expliquer pourquoi et c'est quoi les
00:10:32
remèdes ? Alors ce que tu appelles la
00:10:34
pollution, c'est ce que nous on appelle
00:10:35
la contamination. En fait, c'est quand
00:10:37
je chercher un truc.
00:10:39
En fait, c'est quand tes données
00:10:41
d'évaluation se retrouvent dans le
00:10:43
corpus d'entraînement. C'est-à-dire que
00:10:44
ton modèle au lieu de te donner une
00:10:47
réponse parce qu'il a réfléchi et
00:10:49
cetera, en fait il te donne la réponse
00:10:51
parce qu'il l'a apprise par cœur. Donc
00:10:52
la façon dont c'est géré à l'heure
00:10:53
actuelle c'est que tu peux faire des
00:10:56
benchmarks qui s'actualisent au cours du
00:10:57
temps. Donc tu as par exemple Live Code
00:11:00
Bench
00:11:02
récupérés d'internet au fil du temps et
00:11:05
donc tu réévalues les modèles dessus et
00:11:07
donc tu sais que les scores sur les
00:11:08
problèmes qui n'existaient pas quand le
00:11:10
modèle était là sont des scores entre
00:11:11
guillemets valides. tu as des
00:11:13
évaluations AIMER par exemple qui les
00:11:15
olympiades américaines de mathématiques
00:11:17
qui sont renouvelées tous les ans et qui
00:11:18
sont maintenant utilisé. Tu les vois
00:11:19
citer dans tous les papiers académiques.
00:11:21
Donc ça c'est la première façon de
00:11:22
faire. La deuxième façon de faire c'est
00:11:24
ce que nous on a fait sur GA, c'est tout
00:11:25
bêtement de pas filer une partie des
00:11:27
réponses en fait. C'est-à-dire que si
00:11:29
jamais une partie des réponses n'est pas
00:11:30
publique, les gens ne peuvent pas
00:11:34
tricher très concrètement. Et en terme
00:11:37
de euh cas de de triche, contamination,
00:11:40
tu as par exemple des boîtes qui à une
00:11:42
époque sortaient leur score avec une
00:11:44
méthodologie qui n'était pas la
00:11:45
méthodologie de l'évaluation, ce qui
00:11:47
leur permettait de reporter des scores
00:11:48
qu'ils avaient complètement dopés en
00:11:50
fait si tu veux. Mais indépendamment de
00:11:52
ça, des cas de triche triche, nous on en
00:11:54
a eu sur le openlm leaderboard qui était
00:11:57
donc notre projet d'avant où en fait on
00:11:58
avait des start-ups qui du coup avaient
00:12:01
des rounds de financement qui
00:12:02
dépendaient de leur score sur le
00:12:03
leaderboard, tu vois. Euh mais en
00:12:05
général, il se faisait épingler très
00:12:07
vite par la communauté. Et sur GA, on a
00:12:10
un petit tiers un/art des questions qui
00:12:12
sont publiques et on a tout le reste,
00:12:14
c'est privé. Donc on a nous les réponses
00:12:16
mais personne d'autre n'y a accès et en
00:12:19
fait c'est quand même assez coûteux même
00:12:20
en terme de budget de refaire gaille à
00:12:22
faut que tu aille payer des annotateurs
00:12:24
qui vont se faire tout le process et
00:12:25
cetera et cetera. Donc ce qu'on a eu
00:12:27
comme tentative de triche, ça a commencé
00:12:30
je dirais en février cette année. C'est
00:12:32
des gens qui faisaient des soumissions
00:12:33
bidons. Il y a eu une période où je me
00:12:35
suis retrouvé à avoir le leaderboard,
00:12:36
c'est moi qui gère le leaderboard du
00:12:37
coup qui était spammé à peu près toutes
00:12:38
les minutes par des comptes qui
00:12:41
n'existaient pas avant sur Rugging Face
00:12:43
qui soumettait un fichier de résultat
00:12:45
avec des réponses plus ou moins
00:12:46
aléatoires mais qui regardaient les
00:12:47
évolutions de score parce qu'en fait en
00:12:50
soumettant des trucs aléatoires, tu as
00:12:51
quand même une petite chance que sur un
00:12:53
malentendu ça passe. Et donc si jamais
00:12:55
sur fichier 1 en ayant ce set de réponse
00:12:59
là qui a été soumis, tu as plus 05, par
00:13:02
rapport au fichier d'avant, essayer de
00:13:04
rétroingé. Exactement. Exactement. Et
00:13:07
donc, on a eu des soumissions de
00:13:08
certains labos qui ont eu lieu après que
00:13:11
le leaderboard se soit un petit peu fait
00:13:12
spammer. J'ai retiré peut-être de
00:13:15
semaines de soumission du leaderboard en
00:13:17
contactant les gens dont je savais
00:13:18
qu'ils avaient fait des soumissions à
00:13:19
peu près correctes en disant "Écoutez
00:13:20
les gars, on est désolé. Est-ce que vous
00:13:21
pouvez renvoyer vos résultats ? On a
00:13:23
retiré 2 semaines de spam. Ah c'est
00:13:25
intéressant parce que ça ça peut
00:13:26
paraître entre guillemets puéril mais
00:13:28
comme tu l'as même mentionné parfois il
00:13:29
y a des enjeux énormes en fait corrélés
00:13:31
enjeux financiers. Ouais. Sur le choix
00:13:32
du modèle mais j'avais pas pensé au
00:13:33
lever de fond mais c'est évident que
00:13:34
c'est encore plus gros comme carotte. Il
00:13:38
y a un autre truc dont dont je veux
00:13:39
parler c'est que justement il y a un peu
00:13:41
toute une période où soit parce que les
00:13:43
benchmarks étaient saturés ou parce
00:13:44
qu'il y avait des sortes de triches ou
00:13:45
des choses comme ça mais où il y a
00:13:47
beaucoup de monde qui a commencé à être
00:13:48
blasé des benchmarks. Vous voyez ce que
00:13:49
je veux dire ? En fait, les benchmarqu
00:13:51
ça sert à rien ça. Ça permet pas de
00:13:53
mesurer objectivement les modèles. La
00:13:56
preuve, il y a plein de modèles qui
00:13:57
cartonnent en benchmark et en réalité à
00:14:00
l'épreuve de l'intuition justement le
00:14:02
vibe check qui sont nuls. Donc la seule
00:14:04
chose que je don sur lequel je peux me
00:14:05
fier, c'est moi mon expérience
00:14:07
personnelle. Mais en fait ce qui est un
00:14:09
peu déprimant parce que j'ai pas envie
00:14:10
d'utiliser mon intuition. J'ai envie
00:14:12
d'avoir le le meilleur modèle pour notre
00:14:13
cas d'usage. Et donc il y avait un côté
00:14:15
un peu déprimant. Qu'est-ce que vous en
00:14:17
pensez de cet avis-là ? C'est clairement
00:14:18
quelque chose qui a eu lieu dans
00:14:20
l'équipe on gère l'évaluation et les
00:14:22
leaderboard. Donc 2023, ça a été l'année
00:14:24
des leaderboard. Tu as eu le Open LM
00:14:26
leaderboard, tu as eu la Chatbot Arena
00:14:27
qui est un endroit où les gens peuvent
00:14:29
mettre des modèles en comparaison, poser
00:14:30
une question aux deux, dire "Je préfère
00:14:32
celui-là ou je préfère celui-ci" et
00:14:33
cetera. On a eu beaucoup d'initiatives
00:14:35
de ce style là qui sont arrivées. 2024,
00:14:37
ça a été l'année du Vibe Check. Nous, ça
00:14:38
a été un peu compliqué à gérer. On a dû
00:14:40
actualiser le leaderboard à plusieurs
00:14:41
reprises parce que les gens ne faisaient
00:14:43
plus confiance au score et disaient
00:14:44
"Mais en fait, c'est tellement facile de
00:14:46
tricher." Donc c'est clairement quelque
00:14:48
chose que nous on a vécu. Tu es Ouais.
00:14:49
Tu es d'accord que ça a eu un peu lieu
00:14:51
cette perte de confiance. En fait, il y
00:14:52
a eu une énorme saturation. En plus, on
00:14:55
avait beaucoup de leaderboard qui
00:14:56
sortaient qui venaient de gens qui
00:14:58
étaient plus ou moins de confiance parce
00:15:00
que si jamais tu sors un leaderboard et
00:15:01
que tu sors ton modèle en même temps et
00:15:02
que tu dis "Ah, mon modèle il est le
00:15:04
meilleur sur mon leaderboard, c'est
00:15:05
fou." Bizarre, c'est incroyable, tu
00:15:07
vois.
00:15:08
Ce que ça veut dire c'est parce que là
00:15:10
tu as parlé de 2024, c'est que tu dirais
00:15:12
que c'est c'est moins le cas maintenant.
00:15:14
Oui, 2025 est considéré un peu comme
00:15:16
l'année des agents et évaluer un agent,
00:15:19
ça pose plein de problématiques très
00:15:21
différentes et c'est beaucoup plus
00:15:22
difficile de tricher sur des évaluations
00:15:24
d'agent parce que tu peux générer tes
00:15:27
questions de façon à ce qu'elles soi
00:15:28
beaucoup plus dure à gamer en fait. Et
00:15:29
justement la suite de l'histoire c'est
00:15:30
que ça a pris doucement doucement mais
00:15:33
sûrement comme comme on le voit sur le
00:15:35
graphe. Est-ce que je serais d'accord
00:15:36
Grégoire pour que on reprenne un petit
00:15:38
peu le le la chronologie avec plaisir et
00:15:40
qu'on voit qu'est-ce qui s'est passé
00:15:41
pour qu'on on ait cette courbe
00:15:44
absolument hallucinante quand même en
00:15:45
aussi peu de temps sur euh un GPT4 qui
00:15:49
sait pas faire trois recherches Google
00:15:50
et là euh des petites dings à 80 % euh
00:15:53
je veux pas dire qu'il plie votre
00:15:54
benchmark mais on commence à se
00:15:56
rapprocher. Bah écoute avec plaisir. Euh
00:15:58
donc je suis allé sur le leaderboard
00:16:00
maintenant clémentine. J'ai récupéré à
00:16:02
chaque instant depuis qu'on a lancé le
00:16:04
benchmark, quel était le meilleur score
00:16:06
et quel était le LLM derrière ce
00:16:08
meilleur score ? Et j'ai tracer ça.
00:16:09
Alors déjà la première chose, quand on a
00:16:11
lancé le benchmark en 2023, c'était une
00:16:13
année où on disait bah les LLM sature,
00:16:16
chat GPT, c'était très bien mais le
00:16:18
progrès ne fait que se réduire entre des
00:16:19
versions différentes des LLM. Il va
00:16:21
falloir faire autre chose que des
00:16:21
Transformers et et des LLM. En fait, une
00:16:23
première chose que ce graphique montre,
00:16:25
c'est que quand tu mesures les bonnes
00:16:27
choses, en tout cas d'autres choses que
00:16:28
ce que les gens regardent, les choses
00:16:30
saturent pas du tout. C'est dire que la
00:16:31
courbe s'aplatit pas. Là, le progrès, il
00:16:33
y a des périodes où il est il est
00:16:34
linéaire. Donc ça c'est c'est le le
00:16:35
premier truc un peu marquant. C'est pas
00:16:37
les LLM qui saturent, c'est les
00:16:38
benchmark. Et donc on voit qu'en an et
00:16:40
demi, 2 ans, on est passé de 10 % de
00:16:42
succès sur GAA à aujourd'hui jusqu'à 80
00:16:45
% en moyenne. Il y a une deuxième
00:16:46
information, c'est que tu vois que le
00:16:48
progrès a pas été constant et notamment
00:16:50
sur cette courbe, on voit qu'il y a deux
00:16:52
phases où on a une grosse accélération.
00:16:54
Et ce qui est très drôle, c'est que ces
00:16:56
deux pentes, ces deux phases
00:16:57
d'accélération, elles correspondent à
00:16:58
des trucs qui sont passés dans la dans
00:16:59
la communauté. Le premier, donc c'était
00:17:02
début 2024, c'est quand les gens ont
00:17:04
arrêté de faire comme moi et de poser
00:17:05
des questions à chat GPT en
00:17:07
sélectionnant les tools, mais ont mis
00:17:08
les LLM dans ce qu'on appelle des
00:17:10
orchestrations, du scaffolding ou des
00:17:11
agents, il y a plein de termes qui sont
00:17:13
en train de se consolider un peu, mais
00:17:14
bon, à l'époque ça ça partait un peu
00:17:15
dans tous les sens, mais ça consistait
00:17:17
globalement à mettre ton LM dans un
00:17:18
prompt euh où on lui donne des tools et
00:17:21
à appeler le LLM euh plusieurs fois.
00:17:24
jusqu'à ce que la tâche soit accomplie.
00:17:26
Alors soit parce que tu as décidé que le
00:17:29
LLM serait appelé un nombre n de fois 20
00:17:32
fois, soit le LLM peut aussi décider
00:17:34
lui-même qu'il a répondu à la question.
00:17:36
À l'époque, on voulait faire ça en
00:17:37
partie parce qu'on pensait que ça allait
00:17:39
résoudre des problèmes de LLM. Euh les
00:17:41
LLM ont des connaissances incomplètes,
00:17:42
bah c'est pas grave, ils vont aller sur
00:17:43
internet comme ça ils auront la bonne
00:17:45
réponse bien actualisée. Les LLM ne
00:17:46
savent pas bien faire des additions, bah
00:17:48
c'est pas grave, on va leur donner une
00:17:49
calculatrice comme ça ils pourront avoir
00:17:50
la bonne réponse. Mais en fait ce dont
00:17:52
je me rendais pas tout à fait compte, en
00:17:53
tout cas moi à l'époque je l'ai dit
00:17:54
honnêtement, c'est que certes, tu peux
00:17:57
combler des des défauts des LLM, mais en
00:17:59
fait tu élargis énormément le spectre
00:18:01
des tâches que un LM peut faire et tu
00:18:03
passes vraiment d'un d'un chat modèle à
00:18:05
un agent. Mais on voit que c'est pas
00:18:07
parfait. Et donc on arrive à la suite de
00:18:09
la courbe, on a des progrès et puis
00:18:11
arrivrive assez rapidement on arrive à
00:18:12
un plateau. Qu'est-ce qui s'est passé là
00:18:13
? Qu'est-ce qui se passe ? Bah les LLM
00:18:15
euh leur donner des tools, leur les
00:18:18
faire euh leur faire des raisonnements
00:18:20
et des actions sur plusieurs étapes.
00:18:21
C'était des choses qu'ils avaient un peu
00:18:22
vu mais pas trop. Ce qui s'est vu, c'est
00:18:24
comme tu dis, générer des poèmes,
00:18:25
générer des articles de blog.
00:18:27
Exactement. Avec le prompting, il se
00:18:28
ramène à des choses qu'il a peut-être vu
00:18:30
dans son corpus d'entraînement. Donc
00:18:32
peut-être que d'encore plus
00:18:32
d'entraînement, enfin même sans doute,
00:18:34
il y avait du code, il y avait peut-être
00:18:35
des des raisonnements, des trajectoires,
00:18:38
mais c'est pas quelque chose sur lequel
00:18:40
les gens appuyaient beaucoup en
00:18:41
développement des LLM en 2023. Bon bah,
00:18:43
qu'est-ce que tu fais dans ce cas-là ?
00:18:44
Tu l'entraînes. Et donc moi, je pense
00:18:47
que c'est une partie de ce qui explique
00:18:48
la la deuxième explosion, c'est que les
00:18:51
gens, les développeurs de modèles ont
00:18:53
commencé à réentraîner les LLM sur les
00:18:56
trajectoires qui produisaient avec ces
00:18:59
orchestrations là. Bon, pourrait rentrer
00:19:00
dans les détails, mais en fait, tu peux
00:19:02
faire des tests euh et des évaluations
00:19:04
sur les modèles où tu vois très bien que
00:19:06
oui, ils ont vu des données agent. Donc
00:19:08
ce que tu veux dire c'est que peut-être
00:19:09
que le premier bump là ce qu'on a fait
00:19:11
c'est que parmi les 100 tentatives pour
00:19:14
résoudre ton batchmark, on a pris les
00:19:17
seuls 15 qui marchaient bien mais on
00:19:19
s'en est servi comme nouvelle donnée
00:19:20
d'entraînement pour que le LLM a un peu
00:19:22
plus vu des choses similaires. C'est ça
00:19:25
tu te bout strappes et puis après quand
00:19:27
tu l'entraînes bah la prochaine fois il
00:19:29
peut aller un peu plus loin donc tu peux
00:19:30
le réentraîner et cetera et cetera. Ça
00:19:33
paraît évident quand tu le dis. Mais
00:19:34
non, en fait ben c'est aussi la beauté
00:19:36
de la recherche, c'est que une fois que
00:19:39
tu as trouvé le truc qui marche, ça a
00:19:40
l'air évident mais en vérité quand tu es
00:19:43
dedans et quand tu es avant, ça n' ça
00:19:45
n'était pas évident du tout. Quand on a
00:19:47
fait GAA, on cherchait des questions
00:19:49
difficiles et donc on est arrivé à GAA
00:19:51
parce qu'on savait que c'était des
00:19:51
choses que avait pas mémorisé, qu'il
00:19:53
fallait internet et cetera. Ouais, la
00:19:55
vision agent, elle était pas encore tout
00:19:56
à fait complète à l'époque. Et
00:19:57
typiquement, il y a à ce momentl on
00:19:59
commence aussi à entendre parler des
00:20:00
fameux modèles de raisonnement. Ouais,
00:20:03
pareil pour quelqu'un qui n'a pas
00:20:04
forcément suivi, qui a entendu parler de
00:20:06
O3, les dips évidemment dips R1 que tout
00:20:09
le monde connaîtra. C'est quoi cette
00:20:11
histoire de raisonnement et pourquoi ça
00:20:12
peut aider ? Quand on a commencé à voir
00:20:14
des modèles de raisonnement, on l'
00:20:15
expliquait de la façon suivante, c'est
00:20:16
des modèles qui réfléchissent avant de
00:20:18
parler, qui ont faire des des calculs en
00:20:20
interne pour se donner un peu plus de
00:20:22
chance de d'arriver à la bonne réponse
00:20:23
avant de te donner toi la réponse
00:20:25
finale. Donc ça c'est qualitativement,
00:20:26
ça correspond à peu près à ce qui est
00:20:28
fait.
00:20:29
Fondamentalement, quand tu poses une
00:20:30
question à ton modèle, ton LM répond en
00:20:33
général instantanément et va il est
00:20:34
entraîné pour te donner directement la
00:20:36
réponse. Mais tu peux aussi avoir envie
00:20:38
de mettre un peu plus de compute dans
00:20:41
ton modèle, lui donner un peu de temps
00:20:42
pour qu'il fasse des calculs pour
00:20:44
arriver à cette bonne réponse. Le
00:20:45
raisonnement, ça englobe beaucoup de
00:20:47
techniques différentes. Une technique
00:20:48
très simple, c'est d'appeler 32 fois le
00:20:50
modèle sur la même question et au lieu
00:20:52
de retourner la première réponse, bah tu
00:20:53
retournes la réponse la plus compte
00:20:55
majority. Ah oui, dans la plus
00:20:56
fréquente, tu échanges de l'énergie
00:20:59
enfin de vo de la puissance de calcul
00:21:01
contre une un résultat plus sûr du coup.
00:21:03
Exactement. Est-ce que tu penses que ça
00:21:04
a pu participer à sur le cas de GAA au
00:21:07
fait que les performances grimpent aussi
00:21:09
? Ouais, sans doute. Pourquoi ? Parce
00:21:10
que ce que j'ai fait sur mon graphique,
00:21:12
c'est que j'ai aussi à chaque score,
00:21:14
j'ai associé un un modèle qui était
00:21:16
derrière l'orchestration. Au début du
00:21:18
graphe, tu vois que c'est toujours GPT4
00:21:21
le moteur GPT4 turbo, GPT4 et puis au
00:21:25
moment des au moment de l'inflexion,
00:21:27
c'est aussi le moment où one le modèle
00:21:29
de reasoning d'op release. Donc je sais
00:21:31
pas septembre, octobre, novembre 2024.
00:21:34
Bah, tu vois que dans les modèles euh
00:21:35
qui prennent le State of the Art, qui
00:21:37
ont le meilleur score, on commence à
00:21:39
voir des resoning modèles. Donc, tu as
00:21:40
one, tu as aussi des modèles de la boîte
00:21:42
concurrente en tropique qui qui intègre
00:21:44
un peu de reasoning. Et donc euh bah
00:21:46
empiriquement effectivement, on a
00:21:47
l'impression que parce que l'explosion
00:21:49
coïncide avec le la release d'oper de O1
00:21:51
et des modèles reasoning et parce que
00:21:53
dans les meilleurs modèles on voit des
00:21:54
modèles reasoning, on peut penser que
00:21:56
c'est la deuxième partie de la réponse
00:21:57
de ce deuxième boom. Moi, il y a j'ai
00:21:59
l'impression enfin il y a un truc dont
00:22:01
dont je voudrais parler après, c'est que
00:22:02
dans cette donc dans cette trajectoire,
00:22:04
tu nous as expliqué, il y avait des
00:22:05
orchestrateurs au début qui avait un
00:22:07
côté très euh manuel, c'est-à-dire que
00:22:09
il y a un florilège d'outils euh et de
00:22:12
tout un écosystème qui s'est créé autour
00:22:15
à la fois des de l'inférence de le fait
00:22:16
de faire marcher des modèles mais même
00:22:18
de leur orquest estration justement. Et
00:22:21
très souvent c'est c'est fascinant parce
00:22:23
que tu veux pas dire qu'on met la
00:22:24
charrue avant les bœ mais c'est qu'on
00:22:26
construit des usines à gaz parfois sur
00:22:30
des modèles qui deviennent un peu
00:22:32
obsolètes de temps en temps dès que le
00:22:34
modèle suin arrive. Mais c'est pas
00:22:35
grave, c'est intéressant mais dans les
00:22:36
exemples que j'ai en tête, il y a des CR
00:22:38
ou des choses comme ça où c'est une
00:22:39
magnifique machine mais le truc c'est un
00:22:41
bordel avec des équipes de multiagents
00:22:43
qui discutent entre eux et cetera. Et
00:22:45
j'ai l'impression que là très récemment,
00:22:47
là on est en train d'arriver euh on a vu
00:22:49
euh à des très bons scores sur GAA que
00:22:52
euh les tout derniers modèles, ceux qui
00:22:55
sont vraiment tout en haut de la courbe
00:22:56
justement, c'est des systèmes où il y a
00:22:57
moins cette orchestration manuelle
00:22:59
justement et si j'ai bien compris, c'est
00:23:01
entre autres grâce au reinforcement
00:23:02
learning. Est-ce que tu peux nous
00:23:04
expliquer un petit peu Ouais. qu'est-ce
00:23:05
que qu'est-ce que c'est que cette
00:23:07
histoire de reinforcement learning et et
00:23:09
pourquoi ça arrive maintenant et pas
00:23:10
avant ? Il y a deux parties à ta
00:23:12
question. Ma vision de la recherche sur
00:23:14
l'LLM et en général, c'est que tu dois
00:23:17
en permanence euh trouver le point
00:23:19
d'équilibre entre euh, tu vois, le
00:23:21
contraindre trop euh et l'empêcher euh
00:23:24
de faire ce qui sait bien faire et
00:23:25
l'aider. Et donc euh par exemple, quand
00:23:27
tu tu veux apprendre un modèle euh être
00:23:30
bon sur une certaine tâche, tu veux
00:23:32
avoir envie de modifier l'architecture
00:23:33
du modèle pour que ça corresponde
00:23:34
parfaitement à ton problème. Par
00:23:35
exemple, quand on travait sur les
00:23:36
problèmes de sciences et de molécules,
00:23:37
on avait tendance à intégrer des
00:23:39
connaissances physiques dans
00:23:40
l'architecture pour aider le modèle, tu
00:23:42
vois. Et ça quand tu as pas beaucoup de
00:23:44
données et que ton modèle est pas
00:23:45
terrible, ça l'aide énormément. Puis
00:23:47
après, plus tu progresses dans le
00:23:48
domaine et plus tu acquères des données,
00:23:50
plus tu te rends compte qu'en fait en
00:23:51
enlevant une par une ces petites
00:23:53
béquilles euh ton modèle devient
00:23:56
meilleur. Mais tout l'art, c'est de
00:23:57
savoir quand les enlever. Et donc pour
00:23:59
moi, le l'orchestration, le scaffolding,
00:24:00
ça rentre potentiellement dans cette
00:24:01
catégorie là de technique où bah au
00:24:03
début, tu dois aider un peu le modèle
00:24:05
pour avancer dans ta recherche, pour
00:24:07
commencer à créer des données qui vont
00:24:08
améliorer ton modèle. Puis en fait, une
00:24:10
fois que ton modèle a suffisamment
00:24:12
progressé, tu te rends compte que
00:24:13
revenir à un truc simple, ça aide le
00:24:16
modèle. Ça l'aide parce que le modèle
00:24:17
apprend très bien tout seul une fois
00:24:18
qu'il a beaucoup donné. Ça aide aussi
00:24:20
parce que il faut être aussi humble,
00:24:22
c'est ça, tu t'enlèves des facteurs
00:24:23
d'erreur quoi. Plus tu aides le modèle,
00:24:24
plus tu as des chances de faire des
00:24:26
petites bêtises dans ton code ou
00:24:27
ailleurs. Donc simplifier les choses, ça
00:24:29
ça t'enlève des chances de faire des
00:24:31
erreurs. Tout comme mettons tu avais
00:24:33
écrit un prompt qui marchait super bien
00:24:35
avec un ancien modèle. On le disait à
00:24:36
l'époque, c'était dans les conseils
00:24:37
qu'il fallait être super précis, donner
00:24:39
énormément de d'informations, de
00:24:41
détails, de conseils au modèle pour
00:24:43
obtenir le meilleur résultat. Et
00:24:45
aujourd'hui, ce que je trouve
00:24:46
intéressant, c'est quand on regarde les
00:24:47
postes d'annonce, les blog posts et
00:24:48
cetera de ou les documents techniques
00:24:50
des entreprises qui sont les plus à la
00:24:51
pointe, il y a récemment plutôt des
00:24:54
instructions de dire "Non mais en fait,
00:24:55
tentez de simplifier vos justement vos
00:24:58
promptes." C'estàd que ce promte que tu
00:24:59
as écrit il y a il y a 2 ans hyper hyper
00:25:02
poussé, hyper avancé, essae de le
00:25:04
simplifier, de donner moins de béquille,
00:25:05
de le laisser plus libre entre
00:25:06
guillemets justement et en fait vous
00:25:08
pourriez être surpris parce que le
00:25:10
modèle a a progressé depuis quoi ?
00:25:11
Ouais, exactement. Ça c'était le la
00:25:13
première partie de ma réponse. Première
00:25:14
partie de la réponse, c'est ça. Ensuite,
00:25:15
il y a le reinforcement learning. Alors,
00:25:16
malheureusement, je vais pas avoir
00:25:17
toutes les réponses pour toi euh parce
00:25:19
que euh je les ai pas toutes moi-même.
00:25:21
Euh c'est des questions de recherche
00:25:22
encore ouvertes et puis il y en a
00:25:23
d'autres que je peux pas te donner. Mais
00:25:24
en fait, il y a une façon assez
00:25:26
naturelle de d'aborder la chose, c'est
00:25:28
que comme les modèles deviennent de plus
00:25:30
en plus forts, il y a un moment où en
00:25:31
fait pour beaucoup de tâches, ils
00:25:33
deviennent meilleurs que des humains. On
00:25:34
utilisait beaucoup des annotateurs pour
00:25:36
entraîner les modèles. Donc par exemple,
00:25:37
il y a 2 3 ans, on utilisait des
00:25:38
annotateurs pour créer des petites
00:25:40
tâches pour apprendre au modèle à suivre
00:25:41
des instructions, à traduire des textes,
00:25:43
des poèmes et cetera. Ensuite, on a fait
00:25:45
du RLHF où comme écrire un poème, c'est
00:25:48
quand même un peu compliqué. On
00:25:49
demandait aux annotateurs de choisir
00:25:50
entre deux poèmes. Bon bah aujourd'hui,
00:25:52
quand tu veux annoter pour une tâche
00:25:54
agent, c'est compliqué, ça coûte cher
00:25:56
parce que qu'est-ce qu'il faut faire ?
00:25:58
Tu prends une question GAA, est-ce que
00:26:00
tu as demandé à un annotateur d'écrire
00:26:01
toute la trajectoire étape par étape
00:26:04
avec le contenu de ce que le LLM est
00:26:06
censé mettre dans l'outil et puis le
00:26:08
retour de l'outil ? C'est compliqué.
00:26:09
Est-ce que tu vas demander à
00:26:10
l'annotateur de préférer deux
00:26:11
trajectoires ? Ouais, mais sauf que
00:26:13
comparer de trajectoires, c'est quand
00:26:14
même pas facile non plus. Donc en fait,
00:26:16
il y a une alternative qui qui émerge,
00:26:18
c'est que tu peux aussi laisser le
00:26:20
modèle trouver sa propre solution. Tu
00:26:22
prends une question, une réponse, un peu
00:26:23
comme GAA en fait, parce que les
00:26:25
questions de GA, elles sont toutes
00:26:26
vérifiables. Tu laisses le LLM jouer,
00:26:28
tenter plusieurs fois de trouver la
00:26:29
bonne réponse et puis quand tu as
00:26:31
quelques trajectoires qui sont tombées
00:26:33
sur la bonne réponse, étant donné la
00:26:34
complexité de la question, tu peux dire
00:26:36
la trajectoire moralement, elle doit
00:26:38
être correcte quoi, elle doit être
00:26:39
intéressante et donc tu la gardes et tu
00:26:40
peux utiliser comme data d'entraînement.
00:26:42
En fait, tu le laisses lui-même tester.
00:26:44
Ouais. Et voilà. Se se balader jusqu'à
00:26:47
ce que ça marche quoi. Exactement. Et
00:26:48
parfois tu es surpris parce que tu
00:26:50
trouves parfois des trajectoires assez
00:26:53
dingues que LLM a trouvé par lui-même
00:26:54
que ton annotateur aurait aurait jamais
00:26:56
fait. C'est un truc qui était je pense à
00:26:58
l'époque pas si évident que ça. Nos
00:27:00
annotateurs ont eu beaucoup de mal. Je
00:27:02
pense que à l'époque on travait avec le
00:27:04
CEO de la boîte, je pense qu'il nous
00:27:06
détestait
00:27:08
parce qu'en fait on leur faisait
00:27:09
reprendre les questions plusieurs fois
00:27:10
jusqu'à ce que deux trois personnes,
00:27:12
parfois quatre pour les plus durs
00:27:13
tombent toutes sur la même réponse. Donc
00:27:15
en fait une fois que tu as ça, bon bah
00:27:18
tu as ramené un problème de la vie
00:27:20
réelle plus ou moins parce que même les
00:27:21
questions de ga sont parfois un peu non
00:27:23
naturelles, mais un truc que tu arrives
00:27:25
à vérifier. Et donc là, tu peux
00:27:26
appliquer des approches du style essayer
00:27:28
plusieurs fois jusqu'à ce que ton modèle
00:27:29
réussisse. Et typiquement, de ce que
00:27:31
j'ai compris, c'est plutôt récent.
00:27:32
C'estd que aujourd'hui, c'est un sujet
00:27:35
plutôt chaud dans toutes les équipes les
00:27:37
plus à la pente. Et je sais notamment
00:27:39
que chez chez Open AI, la la fameuse
00:27:41
fonctionnalité dont je parlais, type
00:27:42
research, c'est O3, donc leur modèle de
00:27:45
raisonnement qu'ils ont justement fine
00:27:47
tuné avec du first learning sur des
00:27:51
tâches relativement complexes
00:27:52
d'exploration de l'internet. C'est un
00:27:54
truc dont les les résultats sont
00:27:56
clairement visibles dès maintenant.
00:27:58
Justement là, ce qui est intéressant,
00:27:59
c'est que on arrive à ces 80 % à peu
00:28:01
près. Est-ce que vous ça vous fait ça
00:28:03
vous fait flipper ? Votre votre
00:28:04
benchmark est est-il bientôt saturé ou
00:28:06
pas ? Le niveau 1, oui, clairement. Le
00:28:09
niveau 2, on n'est pas très loin. Le
00:28:10
niveau 3, par contre, on est qu'à 60 %.
00:28:13
et on a commencé à atteindre un petit
00:28:15
plateau sur le niveau 3. Je pense que
00:28:16
les questions du niveau 3 sont
00:28:18
suffisamment difficiles pour qu'on ait
00:28:19
pas encore à l'heure actuelle la gamme
00:28:21
d'outils qui permet de les accomplir
00:28:23
vraiment efficacement. Donc le niveau 3
00:28:25
va encore tenir 6 mois, j'espère.
00:28:28
J'espère. OK. Ça veut dire que c'est
00:28:29
intéressant, c'est qu'on est plutôt en
00:28:30
fin du cycle de vie a priori GA CL de
00:28:33
GAA. Et alors la question c'est quoi les
00:28:35
les benchmarks d'après qui vont mesurer
00:28:38
justement ces modèles qui savent qui
00:28:39
savent faire du GAA et justement est-ce
00:28:41
queils existent ces ces benchmarks déjà
00:28:42
? Il y a une partie des benchmarks qui
00:28:44
existent à l'heure actuelle. Typiquement
00:28:45
Brow Comp qui a été sorti par Open AI,
00:28:47
c'est une version 2 de GAA. Eux au lieu
00:28:50
de demander à leurs annotateurs de
00:28:52
réfléchir à leurs questions étape par
00:28:54
étape et de rajouter des étapes de
00:28:55
complexité, ils sont partis dans l'autre
00:28:57
sens. Ils ont dit, "Si on veut que la
00:28:59
réponse ce soit ça, comment est-ce qu'on
00:29:01
doit écrire la question pour qu'elle
00:29:03
soit suffisamment compliquée pour
00:29:04
nécessiter un grand nombre d'étapes ?"
00:29:06
Ah, par exemple, si tu veux arriver à le
00:29:09
papier machin,
00:29:11
comment est-ce que tu décomposes
00:29:13
l'identité de cet objet pour que ce soit
00:29:15
dur à trouver ? Par exemple, le premier
00:29:17
auteur a fait telle université, le 4è
00:29:19
auteur a fait telle autre université et
00:29:21
a habité là pendant ses études et le
00:29:23
papier a été soumis à telle conférence.
00:29:25
Et donc en partant de la fin entre
00:29:28
guillemets, ils ont construit des
00:29:29
questions qui ont une complexité qui est
00:29:30
similaire à celle de GA. Le petit
00:29:32
problème de ce benchmark là, c'est
00:29:33
qu'ils n'ont pas de garantie de solution
00:29:35
unique. Ah oui, parce qu'après ils ont
00:29:36
mesuré le temps que prenaient des
00:29:38
annotateurs à accomplir les questions.
00:29:40
Dans quelque chose comme 70 ou 80 % des
00:29:42
cas, les annotateurs abandonnent après 2
00:29:44
heures. Donc ils n'ont pas de garantie.
00:29:47
Psychopathe continuez. C'est exactement
00:29:50
ça. En fait, ils n'ont pas de garantie
00:29:52
que les l'espace des solutions soit
00:29:53
unique. Hm. Alors que GAA, nous on sait
00:29:56
de façon certaine que toutes nos
00:29:57
questions sont faisables par des
00:29:59
humains, mais leurs questions sont
00:30:01
globalement, je pense plus complexe.
00:30:03
GAA, il y a aussi le fait que GAA, c'est
00:30:05
l'internet de 2023 qui a un petit peu
00:30:07
changé. On a essayé de se focaliser à
00:30:09
l'époque sur des sources qui
00:30:10
changeraient peu dans le temps,
00:30:11
Wikipédia, les sites de recherche
00:30:13
académique et cetera, mais il y a quand
00:30:15
même probablement des références qui
00:30:16
sont cassées. Browcom, ils sont sortis
00:30:18
il y a quelques mois et donc Browcom,
00:30:20
c'est un bon euh GAA V1.5 5 quoi
00:30:23
concrètement, c'est un peu le même type
00:30:25
de question. Ça demande aussi un certain
00:30:28
nombre d'étapes de raisonnement, un peu
00:30:29
plus de recherche et je dirais un petit
00:30:31
peu moins d'outils de ce que j'ai pu
00:30:32
voir, mais globalement on est sur la
00:30:34
vraiment la ligne philosophique de GAA.
00:30:36
OK. Donc ça c'est Brosc du coup.
00:30:38
Exactement. Et là, on est sur des
00:30:39
benchmarks qui sont des benchmarks en
00:30:42
lecture du monde. Donc, c'est des
00:30:43
benchmarks qui vont chercher de
00:30:44
l'information et qui te donne une
00:30:47
réponse globalement unique. Après, tu as
00:30:49
des benchmarks qui existent aussi qui
00:30:52
sont des benchmarks pour des tâches
00:30:53
d'assistance scientifique. Et ça, c'est
00:30:55
un peu la version 2 des benchmarks de
00:30:57
code. Un benchmark de code, tu demandes
00:30:59
à un modèle de générer du code. Si
00:31:01
jamais le code passe des tests
00:31:04
informatiques, en fait, c'est bon. Si
00:31:06
jamais ça ne passe pas les tests
00:31:07
informatiques, c'est pas bon. La version
00:31:09
suivante, c'est est-ce que des modèles
00:31:13
peuvent résoudre des tâches
00:31:15
scientifiques pour toi ? Il y a trois
00:31:16
benchmarks qui sont assez chouettes
00:31:18
là-dedans. Tu en as un qui s'appelle
00:31:19
Dapstep, c'est de l'analyse de données,
00:31:22
c'est-à-dire que tu files tout un
00:31:24
ensemble de jeux de données structurés
00:31:26
et tu demandes au modèle de faire de
00:31:29
l'analyse vraiment précise de donc par
00:31:31
exemple, tu lui donnes un CSV de 50 Go
00:31:35
de d'une entreprise ou des documents
00:31:37
financiers, des trucs. Ouais, c'est
00:31:38
exactement ça. Et tu poses une question
00:31:40
ultra sombre. Hm hm. Il y a
00:31:41
littéralement des questions du genre sur
00:31:43
le vendeur machin, si jamais ils avaient
00:31:45
passé leur côte de telle valeur à telle
00:31:48
valeur, de combien est-ce que les taux
00:31:49
de change auraient changé en 2023 à
00:31:52
partir de 7 XL de X000 ligne. Et là, tu
00:31:55
as besoin de 15 étapes de faire des
00:31:57
requêtes très complexes SQL ou des
00:31:59
choses comme ça. C'est ça. Déjà, c'est
00:32:00
génial parce que justement quand on fait
00:32:02
la comparaison entre peut-être des vieux
00:32:03
benchmark et des trucs comme ça,
00:32:04
franchement euh ça avoir des LLM qui euh
00:32:06
connaissent euh Wikipédia par cœur, si
00:32:09
c'est pas c'est sympa, mais dans la
00:32:10
vraie dans la vraie vie, en fait, un peu
00:32:12
tout le monde s'en fout, quoi. Euh alors
00:32:14
que là, ce qui c'est génial parce que
00:32:15
c'est des usages réels. Ouais. Et on va
00:32:18
pouvoir mesurer très concrètement la
00:32:21
productivité en fait, c'est comment ces
00:32:22
modèles vont vraiment être utilisés.
00:32:24
C'est ça, c'est génial. Ouais. Et c'est
00:32:26
assez intéressant parce que ce que tu
00:32:27
euh pointes, c'est aussi un gros
00:32:28
changement de paradigme dans le monde de
00:32:30
l'évaluation. Avant on disait pour
00:32:32
évaluer les capacités d'un modèle, on va
00:32:33
évaluer les capacités de connaissance.
00:32:35
Donc MMLU c'était de la connaissance. Et
00:32:37
après, tu as eu des gros benchmarks
00:32:38
comme GPQA ou euh HLE. HLE c'est
00:32:41
Humanities Last Exam. C'est des
00:32:43
questions ultra pointu niveau thèse en
00:32:47
linguistique, en bio, en chimie. Je veux
00:32:49
dire, c'est horrible. Tu lis la
00:32:51
question, tu comprends pas 50 % des mots
00:32:53
? Tant que tu en parles, je propose
00:32:54
qu'on aille regarder le site justement
00:32:56
parce qu'il est assez rigolo justement
00:32:57
pour don les questions, elles sont
00:32:58
voilà, elles sont incroyables. Ouais,
00:33:00
celle-là c'est ma préférée. Est génial.
00:33:02
Voici une représentation d'une
00:33:03
inscription romaine initialement
00:33:05
découverte sur une pierre tombale.
00:33:06
Fournissez une traduction du texte en
00:33:08
palmiren. La translitération est
00:33:10
fournie. Et la la question d'un côté est
00:33:12
incroyable. Celle-là, je n'ai rien
00:33:14
compris la traduction. C'est les
00:33:15
colibris de l'ordre des apodiformes ont
00:33:17
une caractéristique unique. Ils
00:33:18
possèdent un os oval bilatéral.
00:33:20
sésamoïdes situé dans la partie
00:33:22
codolatérale de l'aponévrose croisée
00:33:24
élargie de l'insertion du muscle
00:33:25
dépresseur de la queue. Combien de
00:33:27
tendons appariés sont soutenu par cet os
00:33:29
sésamoïde ? C'est pour ça que ça
00:33:31
s'appelle Humanities last exam, c'est
00:33:33
que après après celui-là exactement tu
00:33:36
as fini le game normalement. Non mais
00:33:37
c'est ça mais ceci mais c'est
00:33:38
intéressant parce que là ça mesure pas
00:33:40
la même chose en fait. Ouais. Et ça ce
00:33:41
qui est intéressant c'est que du coup
00:33:42
c'est des questions de connaissance. Et
00:33:44
le gros problème de ce genre euh
00:33:47
d'évales, c'est que c'est invérifiable
00:33:49
par un humain normal. Personne ne peut
00:33:51
valider la bonne réponse mise à part le
00:33:53
mec expert en colibri ou en linguistique
00:33:55
qui a soumis la question, je dire et du
00:33:57
coup ça donne des benchmarks qui
00:33:59
mesurent des choses impossibles à
00:34:00
valider par l'humain, ce qui est un
00:34:02
problème parce qu'en fait on veut
00:34:04
valider au fur et à mesure, on veut
00:34:05
pouvoir avoir confiance en le système en
00:34:06
fait si tu veux. Et ensuite ça mesure
00:34:09
des choses dont tout le monde se fout.
00:34:11
Est-ce que pour faire l'avocat du
00:34:13
diable, vas-y. Est-ce que justement sur
00:34:14
F exam les questions qu'on a vu, tu
00:34:17
pourrais te dire "OK, il y a une
00:34:18
personne qui peut le faire de tête
00:34:19
éventuellement ce truclou mais une autre
00:34:21
manière de craquer le problème qui est
00:34:22
peut-être encore plus probable, c'est
00:34:24
qu'en fait tu as un excellent outil de
00:34:26
recherche approfondie. Exactement. et
00:34:28
que tu vas pouvoir aller très loin
00:34:29
trouver la documentation de la
00:34:31
traduction de cette langue obscure,
00:34:32
scanner la page avec un de la vision
00:34:35
enfin et trouver des détails. Mais c'est
00:34:37
exactement ça le point en fait, c'est
00:34:38
que du coup avant les gens mesuraient de
00:34:39
la connaissance pure et maintenant on
00:34:41
est en train de transitionner parce que
00:34:43
mesurer de la connaissance pure si
00:34:44
jamais tu y as accès via un outil super
00:34:47
puissant, ça te dit pas grand-chose. Ce
00:34:49
que tu veux c'est mesurer vraiment de la
00:34:53
complexité dans le raisonnement sur des
00:34:54
tâches réelles qui vont être utiles aux
00:34:56
humains. Donc c'est précisément là que
00:34:58
on transitionne de benchmark de
00:35:01
connaissance à la GPQA, c'est la même
00:35:02
chose mais pour des questions de thèse
00:35:04
en math physique bio ou à la Humanity
00:35:07
Last Exam vers du GA du DAP Steep. Tu as
00:35:11
Code c'est des problématiques
00:35:13
logicielles. Paper Bench c'est open AI.
00:35:15
Il file un papier et le LLM doit générer
00:35:18
le code de machine learning qui prouve
00:35:21
ce qui est expliqué dans le papier
00:35:22
scientifique et c'est décomposé en plein
00:35:24
de petites étapes et cetera. Il y a pas
00:35:26
mal de de benchmarks qui mesurent en
00:35:28
fait ce genre de choses appliquées à des
00:35:31
problèmes qui vont être utiles pour des
00:35:33
vrais gens. En fait, il y a un autre
00:35:34
truc que les gens font, c'est
00:35:36
l'évaluation synthétique sur leurs
00:35:37
propres données. Nous, on a un truc qui
00:35:39
s'appelle yourbench par exemple et ça
00:35:40
prend des LLM qui vont extraire des
00:35:43
questions et des données. Tu files tes
00:35:45
données à toi, ça te génère un benchmark
00:35:47
qui est de la questionréponse sur le
00:35:50
type de données toi qui t'intéresse. Ça
00:35:52
peut être du légal, ça peut être du
00:35:53
médical, ça peut être ce que tu veux. Et
00:35:55
donc tu as ton benchmark qui te permet
00:35:56
de juger les qualités des modèles sur
00:35:59
ton cas d'usage. Par exemple, si jamais
00:36:01
tu veux savoir quel est le meilleur
00:36:02
modèle pour t'aider à écrire des
00:36:03
requêtes SQL, bah tu peux prendre la doc
00:36:05
de SQL, te faire un benchmark à partir
00:36:07
de ça qui va être sur les questions qui
00:36:09
toi t'intéressent et euh après tester
00:36:12
les allez 10 top modèles du moment et
00:36:15
voir lequel fonctionne mieux pour toi.
00:36:17
Ça c'est vraiment intéressant parce que
00:36:19
effectivement c'est un concept que j'ai
00:36:20
déjà entendu que à la fin le mieux c'est
00:36:22
ton propre benchmark et l'avantage c'est
00:36:24
que là pour le coup c'est des données
00:36:25
qui seront qui vont pas liquer
00:36:26
publiquement. Tu les as maîtrises, tu
00:36:29
sais que c'est pas bullshit. Exact. Tout
00:36:30
à fait et ça peut aussi te permettre de
00:36:31
gagner du temps en faisant un premier
00:36:33
jeu d'évaluation. Tu le fais valider par
00:36:35
tes experts en interne et ça te fait
00:36:36
après du coup ton petit jeu en interne
00:36:39
que tu réutiliseras jusqu'à ce que les
00:36:40
modèles soient suffisamment bon que ta
00:36:42
mini éval soit saturée aussi et tu
00:36:44
recommences.
00:36:44
Très cool. On a parlé des successeurs de
00:36:47
GAA. Est-ce que vous vous bossez sur des
00:36:50
trucs sur la suite ? Bah moi pareil, je
00:36:52
peux pas vraiment en parler mais je
00:36:55
encore une fois quand tu quand tu
00:36:56
développes, on développe des modèles et
00:36:57
quand tu développes des modèles, tu dois
00:36:59
avoir une boussole et si n'as pas de
00:37:00
boussole, tu ne peux rien faire. Donc
00:37:02
c'est des questions qu'on se pose. OK.
00:37:03
Peut-être qu'on peut dire que ça fait 6
00:37:05
mois qu'on fait une collaboration et que
00:37:07
peut-être que c'est très très lié au
00:37:08
thème qu'on vient de voir et que si
00:37:11
jamais un jour ça sort, peut-être
00:37:14
peut-être qu'on en reparlerait.
00:37:15
Peut-être qu'on en reparlera.
00:37:16
Exactement. Si ça vous a intéressé, je
00:37:18
vous conseille vivement notre interview
00:37:20
d'une chercheuse en IA qui nous a
00:37:22
présenté une question assez peu abordée
00:37:24
et pourtant préoccupante de
00:37:26
l'auto-empoisonnement des IA et de ce
00:37:28
qui pourrait arriver dans quelques
00:37:30
années. C'était dans cette vidéo.