L'IA vient de passer un cap énorme (mais personne n'en parle)

00:37:38
https://www.youtube.com/watch?v=biZX5cnQ_UU

Summary

TLDRCette vidéo explore les avancées récentes dans les modèles d'IA, en mettant l'accent sur le Deep Research d'OpenAI, qui permet des requêtes complexes et l'utilisation d'outils variés. Les intervenants discutent des benchmarks comme GAA, leur évolution et l'impact des modèles de raisonnement. Ils soulignent l'importance de créer des benchmarks adaptés aux tâches réelles pour évaluer efficacement les capacités des modèles d'IA. La conversation aborde également les défis de l'évaluation des modèles et l'importance du reinforcement learning dans l'apprentissage des modèles d'IA.

Takeaways

  • 🚀 Le Deep Research d'OpenAI permet des requêtes complexes.
  • 📊 GAA est un benchmark pour évaluer les capacités des modèles d'IA.
  • 🔍 Les benchmarks évoluent vers des tâches pratiques et réelles.
  • ⚖️ L'évaluation des modèles d'IA doit être adaptée aux contextes réels.
  • 🧠 Le reinforcement learning aide les modèles à apprendre de leurs expériences.
  • 📈 Les benchmarks peuvent devenir saturés et ne pas refléter les capacités réelles.
  • 🛠️ Des benchmarks synthétiques peuvent être créés pour des domaines spécifiques.
  • 🔮 L'avenir des benchmarks d'IA se concentre sur des tâches complexes et utiles.

Timeline

  • 00:00:00 - 00:05:00

    L'intervenant exprime sa lassitude face aux nouveaux modèles d'IA, jusqu'à ce qu'il découvre Deep Research d'OpenAI, qui permet des requêtes complexes et change sa façon de travailler. Il s'interroge sur les avancées techniques derrière ces modèles.

  • 00:05:00 - 00:10:00

    Il mentionne un partenariat avec Mammou AI, qui propose une interface rassemblant divers modèles d'IA à un prix abordable, et introduit les créateurs du benchmark GAA, qui vont expliquer ses résultats et l'innovation d'OpenAI.

  • 00:10:00 - 00:15:00

    Les créateurs de GAA discutent de leur parcours et de la nécessité d'évaluer les capacités des agents d'IA, en se concentrant sur la création de tâches complexes et utiles pour les utilisateurs.

  • 00:15:00 - 00:20:00

    Ils expliquent comment ils ont mesuré la complexité des tâches en fonction du nombre d'étapes et d'outils nécessaires, et partagent des exemples de questions de différents niveaux de difficulté.

  • 00:20:00 - 00:25:00

    Les créateurs de GAA partagent leurs expériences avec les modèles d'IA de l'époque, notant que les performances étaient médiocres, et discutent des défis liés à la création de questions vérifiables et complexes.

  • 00:25:00 - 00:30:00

    Ils abordent la saturation des benchmarks précédents, soulignant que les modèles atteignaient des scores élevés sur des questions devenues faciles, et l'importance de créer des évaluations qui mesurent des capacités plus avancées.

  • 00:30:00 - 00:37:38

    Enfin, ils discutent des nouveaux benchmarks, comme Brow Comp, qui évaluent des tâches complexes et réelles, et de l'évolution vers des évaluations plus pertinentes qui mesurent la capacité des modèles à résoudre des problèmes concrets.

Show more

Mind Map

Video Q&A

  • Qu'est-ce que le Deep Research d'OpenAI ?

    C'est un mode dans ChatGPT qui permet de poser des requêtes complexes et d'utiliser divers outils pour obtenir des réponses.

  • Qu'est-ce que GAA ?

    GAA est un benchmark qui évalue les capacités des modèles d'IA à accomplir des tâches complexes.

  • Comment les benchmarks d'IA ont-ils évolué ?

    Ils sont passés de l'évaluation de la connaissance à des tâches plus complexes et pratiques, comme l'analyse de données.

  • Pourquoi est-il important de créer des benchmarks adaptés ?

    Pour mesurer efficacement les capacités des modèles d'IA dans des contextes réels et éviter la saturation des benchmarks.

  • Qu'est-ce que le reinforcement learning ?

    C'est une méthode d'apprentissage où les modèles apprennent à partir de leurs propres expériences et tentatives.

  • Quels sont les défis des benchmarks actuels ?

    Ils peuvent être saturés ou ne pas refléter les capacités réelles des modèles d'IA.

  • Comment les modèles d'IA peuvent-ils être évalués de manière plus efficace ?

    En utilisant des benchmarks synthétiques basés sur des données spécifiques à un domaine.

  • Quelles sont les prochaines étapes pour les benchmarks d'IA ?

    Développer des benchmarks qui mesurent des tâches complexes et réelles, comme l'analyse de données.

View more video summaries

Get instant access to free YouTube video summaries powered by AI!
Subtitles
fr
Auto Scroll:
  • 00:00:00
    Ça fait quelques mois que j'avoue que je
  • 00:00:01
    me suis lassé de suivre les nouveaux
  • 00:00:03
    modèles d' DIIA entre méta open AI
  • 00:00:05
    anthropique. À chaque annonce, c'est
  • 00:00:07
    intéressant mais j'avais la sensation
  • 00:00:09
    qu'on atteignait une sorte de plateau,
  • 00:00:11
    rien de révolutionnaire. Et puis il y a
  • 00:00:14
    eu Deep research d'open AI. C'est un
  • 00:00:16
    mode spécifique dans chat GPT où au lieu
  • 00:00:18
    de lui poser une question simple, vous
  • 00:00:20
    pouvez lui demander une requête vraiment
  • 00:00:22
    complexe. Et là, c'est magique plutôt
  • 00:00:25
    que de répondre instantanément comme
  • 00:00:27
    d'habitude, il boucle, il utilise des
  • 00:00:29
    outils, il a accès à un internet même
  • 00:00:30
    pour lire des PDF ou des images. Et pour
  • 00:00:34
    la première fois depuis longtemps, je me
  • 00:00:36
    suis pris une claque monumentale et sans
  • 00:00:39
    exagération, ma façon de travailler a
  • 00:00:41
    complètement changé. Maintenant, je fais
  • 00:00:43
    au moins 10 10 par jour pour mes
  • 00:00:46
    rapports, mes comparaisons avant
  • 00:00:47
    d'acheter des choses tout le temps. Mais
  • 00:00:49
    il y a un truc qui m'a obsédé, c'est
  • 00:00:51
    qu'est-ce qui a changé techniquement
  • 00:00:53
    dans ces modèles pour que ça marche
  • 00:00:55
    aussi bien ? Est-ce que c'est juste le
  • 00:00:56
    modèle O3 avec une connexion internet ou
  • 00:00:59
    est-ce que ça va plus loin que ça ?
  • 00:01:01
    C'est en cherchant ces réponses que je
  • 00:01:03
    suis tombé sur un benchmark. Il
  • 00:01:04
    s'appelle GAA et on a eu le privilège de
  • 00:01:08
    recevoir ses créateurs. Ils vont nous
  • 00:01:09
    expliquer ce graphique que vous voyez à
  • 00:01:12
    l'écran. ce que les thinking models ont
  • 00:01:14
    vraiment débloqué mais surtout et c'est
  • 00:01:16
    moins connu, quelle est la sauce secrète
  • 00:01:18
    d'open AI qui fait que deep Research
  • 00:01:20
    marche mieux que toute la concurrence.
  • 00:01:22
    Mais juste avant, j'ai justement un
  • 00:01:24
    message pour tous ceux qui aimeraient
  • 00:01:25
    utiliser les meilleurs modèles DI mais
  • 00:01:28
    qui trouvent que l'addition commence à
  • 00:01:29
    être salée. Notre partenaire Mammou AI
  • 00:01:32
    propose une interface unique qui les
  • 00:01:34
    rassemble tous. Et quand je dis tous, je
  • 00:01:37
    parle du nouveau Claude Sonet 4, Jamini
  • 00:01:39
    2.5 Pro Deepsic, mais aussi les nouveaux
  • 00:01:42
    modèles d'images comme GPT imag, flux
  • 00:01:45
    contexte ou mi-journée. Donc plus jamais
  • 00:01:48
    peur de rater un truc car ils mettent
  • 00:01:50
    constamment cette liste à jour avec les
  • 00:01:52
    nouveautés. Et là où ça devient vraiment
  • 00:01:54
    intéressant, c'est quand on parle du
  • 00:01:56
    prix car tout ça vous l'avez pour 10 €
  • 00:01:59
    par mois. Ça paraît fou quand on sait
  • 00:02:01
    que l'abonnement à chat GPT seul coûte
  • 00:02:03
    20 dollars. Et vous pourrez même
  • 00:02:04
    utiliser le chat vocal de chat GPT ou
  • 00:02:07
    accéder à Perplexity de Research. Je
  • 00:02:10
    vous mets le lien en description et on
  • 00:02:11
    reprend. Vous, c'était quoi votre
  • 00:02:13
    cheminement pour arriver à Ga justement
  • 00:02:15
    ? À la base, c'est euh Thomas Wolf de
  • 00:02:18
    Hugging Face, Thomas Sial de Meta euh
  • 00:02:20
    qui sont pote en gros et euh qui ont
  • 00:02:23
    organiser un déjeuner dans Paris euh
  • 00:02:25
    dans un italien et où euh Thomas Siellom
  • 00:02:27
    euh t'a ramené et Thomas Wolf m'a
  • 00:02:29
    ramené. Euh moi à l'époque je
  • 00:02:30
    travaillais sur de l'évaluation et euh
  • 00:02:32
    vous bossiez sur les prémisses des
  • 00:02:34
    agents parce que c'est 2013 quand même
  • 00:02:35
    donc ça n'existait pas du tout. Et donc
  • 00:02:37
    la question s'est fait de bah comment
  • 00:02:38
    est-ce qu'on va s'assurer que on peut
  • 00:02:41
    dire ça ça va être un bon agent.
  • 00:02:43
    D'ailleurs, le papier parle d'assistant
  • 00:02:45
    et pas d'agent à l'époque. Et ça, ça va
  • 00:02:47
    pas être un bon agent/assistant. C'était
  • 00:02:49
    quoi vos vos premières intuitions avant
  • 00:02:50
    de de vous lancer dans ce ce projet-là ?
  • 00:02:53
    À la base, la question qui s'est posée
  • 00:02:54
    sur GAA, c'est comment est-ce qu'on
  • 00:02:56
    mesure des capacités dont on n'est pas
  • 00:02:58
    encore sûr qu'elles auront lieu et
  • 00:02:59
    qu'elles seront possibles ? et on savait
  • 00:03:02
    qu'on voulait une évaluation qui soit
  • 00:03:04
    quelque chose de difficile pour les
  • 00:03:06
    modèles. Et la grande question qu'on
  • 00:03:08
    s'est posé sur les premiers mois de
  • 00:03:09
    brainstorming autour de GAA, c'était
  • 00:03:11
    comment est-ce qu'on crée des tâches
  • 00:03:13
    pour des assistants ancrés dans le réel
  • 00:03:15
    qui vont être utiles à des gens ? Mais à
  • 00:03:16
    l'époque, c'était plus de la lecture sur
  • 00:03:18
    internet que de l'écriture pour faire
  • 00:03:20
    des rapports et autres. Et comment
  • 00:03:22
    est-ce qu'on mesurait la complexité ?
  • 00:03:23
    Notre vision à l'époque, c'était plus tu
  • 00:03:25
    dois suivre un grand nombre d'étapes,
  • 00:03:27
    plus tu dois utiliser un grand nombre
  • 00:03:29
    d'outils, plus c'est complexe. Par
  • 00:03:31
    exemple, lire un PDF, c'est un outil.
  • 00:03:33
    Interpréter sur une image, c'est un
  • 00:03:35
    outil. Chercher sur internet, c'est un
  • 00:03:36
    outil. En gros, les questions de niveau
  • 00:03:39
    1, c'était les questions qui allaient
  • 00:03:40
    être faciles à débloquer dans l'année.
  • 00:03:42
    C'était des questions qui nécessitaient
  • 00:03:43
    très peu d'outils, très peu d'étapes. À
  • 00:03:45
    l'inverse, les questions de niveau 3, on
  • 00:03:46
    est entre 15 et 40 étapes. Ça donnait
  • 00:03:48
    quoi au début en fait quand vous avez
  • 00:03:49
    essayé vos vos modèles sur GAA ? Ben, on
  • 00:03:51
    testait les questions sur euh les
  • 00:03:53
    modèles qui étaient disponibles à
  • 00:03:54
    l'époque et donc il y avait globalement
  • 00:03:55
    que chat GPT qui était facilement
  • 00:03:57
    accessible. Euh alors je sais pas si tu
  • 00:03:59
    te rappelles mais à ce moment-là, Open
  • 00:04:00
    Avait tenté une expérience où il y avait
  • 00:04:02
    un un app store de tools que tu pouvais
  • 00:04:04
    connecter à à chat GPT, mais en vérité,
  • 00:04:07
    il y a peu peu de ces tools marchaient
  • 00:04:08
    vraiment. Donc ce que je faisais, c'est
  • 00:04:09
    que je sélectionnais à la main ceux dont
  • 00:04:12
    je pensais qui correspondait à peu près
  • 00:04:13
    à la question, ce qui est déjà une aide
  • 00:04:15
    énorme pour pour le modèle. Et c'était
  • 00:04:17
    très mauvais. les modèles en moyenne
  • 00:04:19
    faisaient que quelques pourc moins de 10
  • 00:04:20
    % en tout cas de succès. Et pour donner
  • 00:04:22
    un exemple de de quels sont les les ces
  • 00:04:25
    tâes justement difficile que que tu leur
  • 00:04:27
    demandais, on a fait quelques
  • 00:04:29
    traductions. Donc par exemple calculer
  • 00:04:31
    le pourcentage de matière grasse dans
  • 00:04:32
    une glace. Et donc ça c'est une question
  • 00:04:35
    de niveau 2. Et donc pour donner la
  • 00:04:36
    traduction c'est si cette peinte entière
  • 00:04:38
    est composée de crèmes glacées, de
  • 00:04:40
    combien de pourcent est-elle supérieure
  • 00:04:41
    ou inférieure aux normes fédérales
  • 00:04:43
    américaines en matière de tenneur en
  • 00:04:45
    matière grasse ? Là, on comprend
  • 00:04:46
    intuitivement qu'il il va y avoir besoin
  • 00:04:48
    de d'un peu de temps, quoi. Ce qu'il
  • 00:04:50
    faut préciser sur la question de niveau
  • 00:04:51
    2, c'est qu'on fournit une pièce jointe.
  • 00:04:53
    Donc, il y avait déjà la lecture de
  • 00:04:54
    l'image, extraire l'information du bon
  • 00:04:57
    endroit de l'image, aller faire la
  • 00:04:58
    recherche des standards fédéraux, il me
  • 00:04:59
    semble qu'on contrôle la question avec
  • 00:05:01
    Wikipédia. Donc, aller récupérer
  • 00:05:02
    l'information, comparer les deux, sortir
  • 00:05:04
    un score. Ça ça fait en gros h étapes à
  • 00:05:06
    peu près. Là, niveau 3, on passe un cap.
  • 00:05:10
    Donc l'astronaute de la NASA, là je vous
  • 00:05:12
    fais la traduction dans l'image
  • 00:05:14
    astronomique du jour de la NASA du 21
  • 00:05:16
    janvier 2006. Donc là tu la donnes pas à
  • 00:05:18
    l'image ? Non, il doit il doit la
  • 00:05:19
    trouver tout seul. Tout à fait. Deux
  • 00:05:21
    astronautes sont visibles dont l'un
  • 00:05:22
    semble beaucoup plus petit que l'autre.
  • 00:05:24
    En août 2023, parmi les astronautes du
  • 00:05:26
    groupe de la NASA auquel appartenait
  • 00:05:28
    l'astronaute le plus petit, donc là déjà
  • 00:05:30
    moi je dois me concentrer. Lequel a
  • 00:05:32
    passé le moins de temps dans l'espace et
  • 00:05:35
    combien de minutes a passé l'astronaute
  • 00:05:37
    le plus petit dans l'espace ? Et ça pour
  • 00:05:39
    répondre à cette question, il faut
  • 00:05:41
    combien d'étapes ? Une vingtaine
  • 00:05:42
    d'étapes, je dirais. une vingtaine
  • 00:05:43
    d'étapes et puis peut-être quelque chose
  • 00:05:45
    qui est plus parlant que le nombre
  • 00:05:46
    d'étapes, c'est aussi et une mesure
  • 00:05:47
    qu'on commence à utiliser de plus en
  • 00:05:48
    plus avec les les agences, c'est bah le
  • 00:05:50
    temps en fait qu'un humain mettrait pour
  • 00:05:51
    faire cette tâche. Je pense qu'on a été
  • 00:05:53
    un des premiers papiers à dire combien
  • 00:05:55
    de temps prenaient nos tâches en moyenne
  • 00:05:57
    et je pense que ça c'est quelques
  • 00:05:58
    minutes, quelques dizaines de minutes,
  • 00:05:59
    peut-être 20 minutes, tu arrives à la
  • 00:06:01
    bonne réponse. Mais on a des questions
  • 00:06:02
    qui sont un peu plus un peu plus tricky.
  • 00:06:04
    Par exemple, tu as une question sur
  • 00:06:05
    Zofice et où il faut trouver le bureau
  • 00:06:08
    de Zofice, la version anglaise et pas
  • 00:06:11
    américaine sur Google Maps et indiquer
  • 00:06:13
    je crois le nombre de plots de couleur
  • 00:06:14
    jaune devant à une date donnée sur
  • 00:06:17
    Google Maps, tu vois en Street View par
  • 00:06:19
    exemple. Ouais. Donc là, c'est là on est
  • 00:06:20
    plus dans 2 minutes. Là c'est là ça
  • 00:06:22
    prend plus de temps que tu a compter les
  • 00:06:24
    plots et cetera. Ouais. On avait même
  • 00:06:25
    essayé de faire des petites questions
  • 00:06:26
    d'intmark
  • 00:06:28
    mais on avait pas réussi à faire des
  • 00:06:30
    choses qui avaient une seule bonne
  • 00:06:31
    réponse, tu vois. Donc on pouvait,
  • 00:06:32
    c'était trop dur de les vérifier mais
  • 00:06:34
    donc on était frustré. Mais on c'est ça
  • 00:06:35
    qui est ce qui est super dur en fait
  • 00:06:37
    c'estd que ton benchmark il doit mesurer
  • 00:06:40
    avec le bon niveau de difficulté une
  • 00:06:42
    donnée qui est non ambigue. Oui. Parce
  • 00:06:45
    que tu veux pas le le vérifier à la main
  • 00:06:46
    j'imagine il y a par exemple il y a
  • 00:06:48
    combien de questions dans un benchmark
  • 00:06:50
    comme ça ? Là il y en a 460 quelque
  • 00:06:51
    chose. 460 quand même à peu près. Au
  • 00:06:53
    moment où vous publiez le papier les
  • 00:06:55
    premiers modèles, vous les vous les
  • 00:06:57
    testez vous-même au sein du papier et
  • 00:06:59
    ils sont catastrophiques. Hm hm. Et tant
  • 00:07:01
    mieux. C'est-à-dire vous avez un bon
  • 00:07:02
    benchmark justement ce qui va permettre
  • 00:07:04
    de mesurer la progression et derrière la
  • 00:07:05
    l'intérêt c'est que ça ça crée un une
  • 00:07:07
    carotte en fait c'est un peu ça. Toutes
  • 00:07:09
    les prochaines entreprises vont avoir
  • 00:07:11
    envie de se battre pour augmenter les
  • 00:07:12
    pourcents sur GAA par exemple. C'est ça
  • 00:07:14
    qui s'est passé typiquement. C'est ce
  • 00:07:15
    qu'on veut qu'il se passe. Et en gros ce
  • 00:07:17
    qui est intéressant c'est que ce qu'on
  • 00:07:18
    voit au fil du temps, c'est que au début
  • 00:07:20
    on avait très peu de soumission pendant
  • 00:07:21
    la première année et là en début d'année
  • 00:07:24
    on a juste augmenté le nombre de
  • 00:07:25
    soumissions. On le voit sur ces figures
  • 00:07:27
    là. vraiment sur le trimestre de
  • 00:07:29
    l'année, on a quatre ou cin fois toutes
  • 00:07:31
    les soumissions qu'on a eu avant. Et ça
  • 00:07:33
    c'est très intéressant rien que de rien
  • 00:07:35
    qu'à voir les la shape de la de la
  • 00:07:37
    courbe. On comprend que cette impression
  • 00:07:40
    qu'on peut avoir un peu de l'extérieur
  • 00:07:42
    que depuis un an ça bouge plus trop. En
  • 00:07:44
    fait, c'est absolument pas vrai. Et je
  • 00:07:46
    trouve que justement voir les exemples,
  • 00:07:47
    ça permet de se de comprendre qu'est-ce
  • 00:07:49
    qui a changé. Justement avant de
  • 00:07:51
    d'expliquer qui gagne et pourquoi,
  • 00:07:53
    est-ce qu'on peut expliquer c'était quoi
  • 00:07:56
    avant GAA les benchmark qui existaient ?
  • 00:07:59
    Parce que là le le fait que ça commence
  • 00:08:00
    à 10 % pour ceux qui qui ont peut-être
  • 00:08:02
    regardé régulièrement les benchmark, ça
  • 00:08:03
    peut étonner. On voyait beaucoup que ce
  • 00:08:05
    soit Google ou Anthopiic ou Open AI ou
  • 00:08:08
    Facebook ou Meta pardon publier leurs
  • 00:08:11
    résultats sur des benchmarks qui
  • 00:08:13
    arrivaient à des 90 % 80 % de succès, ce
  • 00:08:16
    qui impressionne évidemment. Mais est-ce
  • 00:08:18
    que c'est bien déjà ? C'est la première
  • 00:08:20
    question. Et deuxièmement, pourquoi ?
  • 00:08:23
    Donc il y a plusieurs aspects. La
  • 00:08:24
    première chose, c'est euh
  • 00:08:26
    historiquement, les premiers benchmark
  • 00:08:27
    qui sont sortis, c'était des benchmarks
  • 00:08:29
    de connaissance. C'est-à-dire que tu
  • 00:08:31
    allait payer euh des annotateurs un peu
  • 00:08:32
    partout dans le monde et tu allais leur
  • 00:08:34
    demander d'écrire des questions qui
  • 00:08:36
    étaient inspirées de Wikipédia et cetera
  • 00:08:37
    et cetera. Et c'était de la connaissance
  • 00:08:39
    qui à l'époque, beaucoup de ces
  • 00:08:41
    benchmarks sont sortis entre 2017 et
  • 00:08:43
    genre 2021 étit dur à trouver avec les
  • 00:08:46
    modèles de l'époque, mais ce sont des
  • 00:08:48
    benchmark qui sont devenus extrêmement
  • 00:08:49
    faciles au fur et à mesure que la
  • 00:08:51
    capacité des modèles a augmenté. Ça,
  • 00:08:53
    c'est un phénomène qu'on appelle la
  • 00:08:54
    saturation. C'est-à-dire que au début un
  • 00:08:56
    benchmark est difficile. Il y a un
  • 00:08:58
    moment où les capacités des modèles font
  • 00:09:00
    que les questions deviennent très
  • 00:09:01
    simples à résoudre et du coup tout le
  • 00:09:03
    monde atteint du 90 % performance
  • 00:09:05
    humaine. Et dans ce cas-là, le benchmark
  • 00:09:07
    ne sert plus à rien parce que c'est
  • 00:09:08
    comme évaluer un lycéen sur des
  • 00:09:09
    problèmes de 6e. Alors s'il échou, il y
  • 00:09:11
    a un problème mais normalement tout le
  • 00:09:14
    monde est bon. C'est pas une info
  • 00:09:15
    passionnante quoi. Exactement. Et donc
  • 00:09:17
    typiquement le fait que à cette époque
  • 00:09:20
    là on voit des benchmark qui font 90 %
  • 00:09:23
    en réalité c'est pas réjouissant. Ça
  • 00:09:24
    veut dire que on ne savait pas mesurer
  • 00:09:26
    l'étape d'après. En fait, c'est un peu
  • 00:09:27
    ça en fait. Mais c'est parce que c'est
  • 00:09:29
    très très difficile de mesurer l'étape
  • 00:09:30
    d'après. Mesurer l'étape d'après, ça
  • 00:09:32
    veut dire que tu as déjà anticipé
  • 00:09:35
    quelles sont les prochaines capacités
  • 00:09:36
    qui vont être débloquées par les
  • 00:09:37
    modèles. Et c'est le truc cœur de
  • 00:09:39
    l'évaluation. Ton évaluation, elle te
  • 00:09:41
    sert en gros à trois choses. Elle te
  • 00:09:43
    sert à regarder où est-ce que tu en es
  • 00:09:45
    maintenant dans les capacités, ce qui va
  • 00:09:47
    permettre à toi de choisir le meilleur
  • 00:09:49
    modèle pour ton cas d'usage et cetera.
  • 00:09:50
    Elle permet aux gens qui entraînent leur
  • 00:09:52
    modèle de vérifier que leur méthode
  • 00:09:53
    d'entraînement marche bien et après elle
  • 00:09:55
    nous permettent à nous chercheurs du
  • 00:09:57
    domaine de voir où est-ce qu'on va en
  • 00:10:00
    fait. Et là on a des évaluations qui
  • 00:10:01
    deviennent les étoiles polaires du
  • 00:10:03
    domaine et tout le monde se regroupe
  • 00:10:05
    autour de ça et les gens du coup font
  • 00:10:07
    consensus. C'est ce qui s'est passé pour
  • 00:10:08
    MMLU puis Mat puis GAA par exemple. Et
  • 00:10:10
    mo un truc qui je pense qu'il faut qu'
  • 00:10:12
    qu'il faut aborder qui est vachement lié
  • 00:10:14
    au benchmark, c'est justement parce
  • 00:10:16
    qu'il y a un tel enjeu sur la cricité du
  • 00:10:19
    benchmark et sur à quel point cette
  • 00:10:20
    valeur elle va influer des choix
  • 00:10:22
    d'écosystèmes, des choix même
  • 00:10:23
    d'industrie qui vont acheter ou pas. Ça
  • 00:10:26
    fait que il y a des problèmes parfois de
  • 00:10:28
    pollution. Est-ce que vous pouvez
  • 00:10:30
    expliquer pourquoi et c'est quoi les
  • 00:10:32
    remèdes ? Alors ce que tu appelles la
  • 00:10:34
    pollution, c'est ce que nous on appelle
  • 00:10:35
    la contamination. En fait, c'est quand
  • 00:10:37
    je chercher un truc.
  • 00:10:39
    En fait, c'est quand tes données
  • 00:10:41
    d'évaluation se retrouvent dans le
  • 00:10:43
    corpus d'entraînement. C'est-à-dire que
  • 00:10:44
    ton modèle au lieu de te donner une
  • 00:10:47
    réponse parce qu'il a réfléchi et
  • 00:10:49
    cetera, en fait il te donne la réponse
  • 00:10:51
    parce qu'il l'a apprise par cœur. Donc
  • 00:10:52
    la façon dont c'est géré à l'heure
  • 00:10:53
    actuelle c'est que tu peux faire des
  • 00:10:56
    benchmarks qui s'actualisent au cours du
  • 00:10:57
    temps. Donc tu as par exemple Live Code
  • 00:11:00
    Bench
  • 00:11:02
    récupérés d'internet au fil du temps et
  • 00:11:05
    donc tu réévalues les modèles dessus et
  • 00:11:07
    donc tu sais que les scores sur les
  • 00:11:08
    problèmes qui n'existaient pas quand le
  • 00:11:10
    modèle était là sont des scores entre
  • 00:11:11
    guillemets valides. tu as des
  • 00:11:13
    évaluations AIMER par exemple qui les
  • 00:11:15
    olympiades américaines de mathématiques
  • 00:11:17
    qui sont renouvelées tous les ans et qui
  • 00:11:18
    sont maintenant utilisé. Tu les vois
  • 00:11:19
    citer dans tous les papiers académiques.
  • 00:11:21
    Donc ça c'est la première façon de
  • 00:11:22
    faire. La deuxième façon de faire c'est
  • 00:11:24
    ce que nous on a fait sur GA, c'est tout
  • 00:11:25
    bêtement de pas filer une partie des
  • 00:11:27
    réponses en fait. C'est-à-dire que si
  • 00:11:29
    jamais une partie des réponses n'est pas
  • 00:11:30
    publique, les gens ne peuvent pas
  • 00:11:34
    tricher très concrètement. Et en terme
  • 00:11:37
    de euh cas de de triche, contamination,
  • 00:11:40
    tu as par exemple des boîtes qui à une
  • 00:11:42
    époque sortaient leur score avec une
  • 00:11:44
    méthodologie qui n'était pas la
  • 00:11:45
    méthodologie de l'évaluation, ce qui
  • 00:11:47
    leur permettait de reporter des scores
  • 00:11:48
    qu'ils avaient complètement dopés en
  • 00:11:50
    fait si tu veux. Mais indépendamment de
  • 00:11:52
    ça, des cas de triche triche, nous on en
  • 00:11:54
    a eu sur le openlm leaderboard qui était
  • 00:11:57
    donc notre projet d'avant où en fait on
  • 00:11:58
    avait des start-ups qui du coup avaient
  • 00:12:01
    des rounds de financement qui
  • 00:12:02
    dépendaient de leur score sur le
  • 00:12:03
    leaderboard, tu vois. Euh mais en
  • 00:12:05
    général, il se faisait épingler très
  • 00:12:07
    vite par la communauté. Et sur GA, on a
  • 00:12:10
    un petit tiers un/art des questions qui
  • 00:12:12
    sont publiques et on a tout le reste,
  • 00:12:14
    c'est privé. Donc on a nous les réponses
  • 00:12:16
    mais personne d'autre n'y a accès et en
  • 00:12:19
    fait c'est quand même assez coûteux même
  • 00:12:20
    en terme de budget de refaire gaille à
  • 00:12:22
    faut que tu aille payer des annotateurs
  • 00:12:24
    qui vont se faire tout le process et
  • 00:12:25
    cetera et cetera. Donc ce qu'on a eu
  • 00:12:27
    comme tentative de triche, ça a commencé
  • 00:12:30
    je dirais en février cette année. C'est
  • 00:12:32
    des gens qui faisaient des soumissions
  • 00:12:33
    bidons. Il y a eu une période où je me
  • 00:12:35
    suis retrouvé à avoir le leaderboard,
  • 00:12:36
    c'est moi qui gère le leaderboard du
  • 00:12:37
    coup qui était spammé à peu près toutes
  • 00:12:38
    les minutes par des comptes qui
  • 00:12:41
    n'existaient pas avant sur Rugging Face
  • 00:12:43
    qui soumettait un fichier de résultat
  • 00:12:45
    avec des réponses plus ou moins
  • 00:12:46
    aléatoires mais qui regardaient les
  • 00:12:47
    évolutions de score parce qu'en fait en
  • 00:12:50
    soumettant des trucs aléatoires, tu as
  • 00:12:51
    quand même une petite chance que sur un
  • 00:12:53
    malentendu ça passe. Et donc si jamais
  • 00:12:55
    sur fichier 1 en ayant ce set de réponse
  • 00:12:59
    là qui a été soumis, tu as plus 05, par
  • 00:13:02
    rapport au fichier d'avant, essayer de
  • 00:13:04
    rétroingé. Exactement. Exactement. Et
  • 00:13:07
    donc, on a eu des soumissions de
  • 00:13:08
    certains labos qui ont eu lieu après que
  • 00:13:11
    le leaderboard se soit un petit peu fait
  • 00:13:12
    spammer. J'ai retiré peut-être de
  • 00:13:15
    semaines de soumission du leaderboard en
  • 00:13:17
    contactant les gens dont je savais
  • 00:13:18
    qu'ils avaient fait des soumissions à
  • 00:13:19
    peu près correctes en disant "Écoutez
  • 00:13:20
    les gars, on est désolé. Est-ce que vous
  • 00:13:21
    pouvez renvoyer vos résultats ? On a
  • 00:13:23
    retiré 2 semaines de spam. Ah c'est
  • 00:13:25
    intéressant parce que ça ça peut
  • 00:13:26
    paraître entre guillemets puéril mais
  • 00:13:28
    comme tu l'as même mentionné parfois il
  • 00:13:29
    y a des enjeux énormes en fait corrélés
  • 00:13:31
    enjeux financiers. Ouais. Sur le choix
  • 00:13:32
    du modèle mais j'avais pas pensé au
  • 00:13:33
    lever de fond mais c'est évident que
  • 00:13:34
    c'est encore plus gros comme carotte. Il
  • 00:13:38
    y a un autre truc dont dont je veux
  • 00:13:39
    parler c'est que justement il y a un peu
  • 00:13:41
    toute une période où soit parce que les
  • 00:13:43
    benchmarks étaient saturés ou parce
  • 00:13:44
    qu'il y avait des sortes de triches ou
  • 00:13:45
    des choses comme ça mais où il y a
  • 00:13:47
    beaucoup de monde qui a commencé à être
  • 00:13:48
    blasé des benchmarks. Vous voyez ce que
  • 00:13:49
    je veux dire ? En fait, les benchmarqu
  • 00:13:51
    ça sert à rien ça. Ça permet pas de
  • 00:13:53
    mesurer objectivement les modèles. La
  • 00:13:56
    preuve, il y a plein de modèles qui
  • 00:13:57
    cartonnent en benchmark et en réalité à
  • 00:14:00
    l'épreuve de l'intuition justement le
  • 00:14:02
    vibe check qui sont nuls. Donc la seule
  • 00:14:04
    chose que je don sur lequel je peux me
  • 00:14:05
    fier, c'est moi mon expérience
  • 00:14:07
    personnelle. Mais en fait ce qui est un
  • 00:14:09
    peu déprimant parce que j'ai pas envie
  • 00:14:10
    d'utiliser mon intuition. J'ai envie
  • 00:14:12
    d'avoir le le meilleur modèle pour notre
  • 00:14:13
    cas d'usage. Et donc il y avait un côté
  • 00:14:15
    un peu déprimant. Qu'est-ce que vous en
  • 00:14:17
    pensez de cet avis-là ? C'est clairement
  • 00:14:18
    quelque chose qui a eu lieu dans
  • 00:14:20
    l'équipe on gère l'évaluation et les
  • 00:14:22
    leaderboard. Donc 2023, ça a été l'année
  • 00:14:24
    des leaderboard. Tu as eu le Open LM
  • 00:14:26
    leaderboard, tu as eu la Chatbot Arena
  • 00:14:27
    qui est un endroit où les gens peuvent
  • 00:14:29
    mettre des modèles en comparaison, poser
  • 00:14:30
    une question aux deux, dire "Je préfère
  • 00:14:32
    celui-là ou je préfère celui-ci" et
  • 00:14:33
    cetera. On a eu beaucoup d'initiatives
  • 00:14:35
    de ce style là qui sont arrivées. 2024,
  • 00:14:37
    ça a été l'année du Vibe Check. Nous, ça
  • 00:14:38
    a été un peu compliqué à gérer. On a dû
  • 00:14:40
    actualiser le leaderboard à plusieurs
  • 00:14:41
    reprises parce que les gens ne faisaient
  • 00:14:43
    plus confiance au score et disaient
  • 00:14:44
    "Mais en fait, c'est tellement facile de
  • 00:14:46
    tricher." Donc c'est clairement quelque
  • 00:14:48
    chose que nous on a vécu. Tu es Ouais.
  • 00:14:49
    Tu es d'accord que ça a eu un peu lieu
  • 00:14:51
    cette perte de confiance. En fait, il y
  • 00:14:52
    a eu une énorme saturation. En plus, on
  • 00:14:55
    avait beaucoup de leaderboard qui
  • 00:14:56
    sortaient qui venaient de gens qui
  • 00:14:58
    étaient plus ou moins de confiance parce
  • 00:15:00
    que si jamais tu sors un leaderboard et
  • 00:15:01
    que tu sors ton modèle en même temps et
  • 00:15:02
    que tu dis "Ah, mon modèle il est le
  • 00:15:04
    meilleur sur mon leaderboard, c'est
  • 00:15:05
    fou." Bizarre, c'est incroyable, tu
  • 00:15:07
    vois.
  • 00:15:08
    Ce que ça veut dire c'est parce que là
  • 00:15:10
    tu as parlé de 2024, c'est que tu dirais
  • 00:15:12
    que c'est c'est moins le cas maintenant.
  • 00:15:14
    Oui, 2025 est considéré un peu comme
  • 00:15:16
    l'année des agents et évaluer un agent,
  • 00:15:19
    ça pose plein de problématiques très
  • 00:15:21
    différentes et c'est beaucoup plus
  • 00:15:22
    difficile de tricher sur des évaluations
  • 00:15:24
    d'agent parce que tu peux générer tes
  • 00:15:27
    questions de façon à ce qu'elles soi
  • 00:15:28
    beaucoup plus dure à gamer en fait. Et
  • 00:15:29
    justement la suite de l'histoire c'est
  • 00:15:30
    que ça a pris doucement doucement mais
  • 00:15:33
    sûrement comme comme on le voit sur le
  • 00:15:35
    graphe. Est-ce que je serais d'accord
  • 00:15:36
    Grégoire pour que on reprenne un petit
  • 00:15:38
    peu le le la chronologie avec plaisir et
  • 00:15:40
    qu'on voit qu'est-ce qui s'est passé
  • 00:15:41
    pour qu'on on ait cette courbe
  • 00:15:44
    absolument hallucinante quand même en
  • 00:15:45
    aussi peu de temps sur euh un GPT4 qui
  • 00:15:49
    sait pas faire trois recherches Google
  • 00:15:50
    et là euh des petites dings à 80 % euh
  • 00:15:53
    je veux pas dire qu'il plie votre
  • 00:15:54
    benchmark mais on commence à se
  • 00:15:56
    rapprocher. Bah écoute avec plaisir. Euh
  • 00:15:58
    donc je suis allé sur le leaderboard
  • 00:16:00
    maintenant clémentine. J'ai récupéré à
  • 00:16:02
    chaque instant depuis qu'on a lancé le
  • 00:16:04
    benchmark, quel était le meilleur score
  • 00:16:06
    et quel était le LLM derrière ce
  • 00:16:08
    meilleur score ? Et j'ai tracer ça.
  • 00:16:09
    Alors déjà la première chose, quand on a
  • 00:16:11
    lancé le benchmark en 2023, c'était une
  • 00:16:13
    année où on disait bah les LLM sature,
  • 00:16:16
    chat GPT, c'était très bien mais le
  • 00:16:18
    progrès ne fait que se réduire entre des
  • 00:16:19
    versions différentes des LLM. Il va
  • 00:16:21
    falloir faire autre chose que des
  • 00:16:21
    Transformers et et des LLM. En fait, une
  • 00:16:23
    première chose que ce graphique montre,
  • 00:16:25
    c'est que quand tu mesures les bonnes
  • 00:16:27
    choses, en tout cas d'autres choses que
  • 00:16:28
    ce que les gens regardent, les choses
  • 00:16:30
    saturent pas du tout. C'est dire que la
  • 00:16:31
    courbe s'aplatit pas. Là, le progrès, il
  • 00:16:33
    y a des périodes où il est il est
  • 00:16:34
    linéaire. Donc ça c'est c'est le le
  • 00:16:35
    premier truc un peu marquant. C'est pas
  • 00:16:37
    les LLM qui saturent, c'est les
  • 00:16:38
    benchmark. Et donc on voit qu'en an et
  • 00:16:40
    demi, 2 ans, on est passé de 10 % de
  • 00:16:42
    succès sur GAA à aujourd'hui jusqu'à 80
  • 00:16:45
    % en moyenne. Il y a une deuxième
  • 00:16:46
    information, c'est que tu vois que le
  • 00:16:48
    progrès a pas été constant et notamment
  • 00:16:50
    sur cette courbe, on voit qu'il y a deux
  • 00:16:52
    phases où on a une grosse accélération.
  • 00:16:54
    Et ce qui est très drôle, c'est que ces
  • 00:16:56
    deux pentes, ces deux phases
  • 00:16:57
    d'accélération, elles correspondent à
  • 00:16:58
    des trucs qui sont passés dans la dans
  • 00:16:59
    la communauté. Le premier, donc c'était
  • 00:17:02
    début 2024, c'est quand les gens ont
  • 00:17:04
    arrêté de faire comme moi et de poser
  • 00:17:05
    des questions à chat GPT en
  • 00:17:07
    sélectionnant les tools, mais ont mis
  • 00:17:08
    les LLM dans ce qu'on appelle des
  • 00:17:10
    orchestrations, du scaffolding ou des
  • 00:17:11
    agents, il y a plein de termes qui sont
  • 00:17:13
    en train de se consolider un peu, mais
  • 00:17:14
    bon, à l'époque ça ça partait un peu
  • 00:17:15
    dans tous les sens, mais ça consistait
  • 00:17:17
    globalement à mettre ton LM dans un
  • 00:17:18
    prompt euh où on lui donne des tools et
  • 00:17:21
    à appeler le LLM euh plusieurs fois.
  • 00:17:24
    jusqu'à ce que la tâche soit accomplie.
  • 00:17:26
    Alors soit parce que tu as décidé que le
  • 00:17:29
    LLM serait appelé un nombre n de fois 20
  • 00:17:32
    fois, soit le LLM peut aussi décider
  • 00:17:34
    lui-même qu'il a répondu à la question.
  • 00:17:36
    À l'époque, on voulait faire ça en
  • 00:17:37
    partie parce qu'on pensait que ça allait
  • 00:17:39
    résoudre des problèmes de LLM. Euh les
  • 00:17:41
    LLM ont des connaissances incomplètes,
  • 00:17:42
    bah c'est pas grave, ils vont aller sur
  • 00:17:43
    internet comme ça ils auront la bonne
  • 00:17:45
    réponse bien actualisée. Les LLM ne
  • 00:17:46
    savent pas bien faire des additions, bah
  • 00:17:48
    c'est pas grave, on va leur donner une
  • 00:17:49
    calculatrice comme ça ils pourront avoir
  • 00:17:50
    la bonne réponse. Mais en fait ce dont
  • 00:17:52
    je me rendais pas tout à fait compte, en
  • 00:17:53
    tout cas moi à l'époque je l'ai dit
  • 00:17:54
    honnêtement, c'est que certes, tu peux
  • 00:17:57
    combler des des défauts des LLM, mais en
  • 00:17:59
    fait tu élargis énormément le spectre
  • 00:18:01
    des tâches que un LM peut faire et tu
  • 00:18:03
    passes vraiment d'un d'un chat modèle à
  • 00:18:05
    un agent. Mais on voit que c'est pas
  • 00:18:07
    parfait. Et donc on arrive à la suite de
  • 00:18:09
    la courbe, on a des progrès et puis
  • 00:18:11
    arrivrive assez rapidement on arrive à
  • 00:18:12
    un plateau. Qu'est-ce qui s'est passé là
  • 00:18:13
    ? Qu'est-ce qui se passe ? Bah les LLM
  • 00:18:15
    euh leur donner des tools, leur les
  • 00:18:18
    faire euh leur faire des raisonnements
  • 00:18:20
    et des actions sur plusieurs étapes.
  • 00:18:21
    C'était des choses qu'ils avaient un peu
  • 00:18:22
    vu mais pas trop. Ce qui s'est vu, c'est
  • 00:18:24
    comme tu dis, générer des poèmes,
  • 00:18:25
    générer des articles de blog.
  • 00:18:27
    Exactement. Avec le prompting, il se
  • 00:18:28
    ramène à des choses qu'il a peut-être vu
  • 00:18:30
    dans son corpus d'entraînement. Donc
  • 00:18:32
    peut-être que d'encore plus
  • 00:18:32
    d'entraînement, enfin même sans doute,
  • 00:18:34
    il y avait du code, il y avait peut-être
  • 00:18:35
    des des raisonnements, des trajectoires,
  • 00:18:38
    mais c'est pas quelque chose sur lequel
  • 00:18:40
    les gens appuyaient beaucoup en
  • 00:18:41
    développement des LLM en 2023. Bon bah,
  • 00:18:43
    qu'est-ce que tu fais dans ce cas-là ?
  • 00:18:44
    Tu l'entraînes. Et donc moi, je pense
  • 00:18:47
    que c'est une partie de ce qui explique
  • 00:18:48
    la la deuxième explosion, c'est que les
  • 00:18:51
    gens, les développeurs de modèles ont
  • 00:18:53
    commencé à réentraîner les LLM sur les
  • 00:18:56
    trajectoires qui produisaient avec ces
  • 00:18:59
    orchestrations là. Bon, pourrait rentrer
  • 00:19:00
    dans les détails, mais en fait, tu peux
  • 00:19:02
    faire des tests euh et des évaluations
  • 00:19:04
    sur les modèles où tu vois très bien que
  • 00:19:06
    oui, ils ont vu des données agent. Donc
  • 00:19:08
    ce que tu veux dire c'est que peut-être
  • 00:19:09
    que le premier bump là ce qu'on a fait
  • 00:19:11
    c'est que parmi les 100 tentatives pour
  • 00:19:14
    résoudre ton batchmark, on a pris les
  • 00:19:17
    seuls 15 qui marchaient bien mais on
  • 00:19:19
    s'en est servi comme nouvelle donnée
  • 00:19:20
    d'entraînement pour que le LLM a un peu
  • 00:19:22
    plus vu des choses similaires. C'est ça
  • 00:19:25
    tu te bout strappes et puis après quand
  • 00:19:27
    tu l'entraînes bah la prochaine fois il
  • 00:19:29
    peut aller un peu plus loin donc tu peux
  • 00:19:30
    le réentraîner et cetera et cetera. Ça
  • 00:19:33
    paraît évident quand tu le dis. Mais
  • 00:19:34
    non, en fait ben c'est aussi la beauté
  • 00:19:36
    de la recherche, c'est que une fois que
  • 00:19:39
    tu as trouvé le truc qui marche, ça a
  • 00:19:40
    l'air évident mais en vérité quand tu es
  • 00:19:43
    dedans et quand tu es avant, ça n' ça
  • 00:19:45
    n'était pas évident du tout. Quand on a
  • 00:19:47
    fait GAA, on cherchait des questions
  • 00:19:49
    difficiles et donc on est arrivé à GAA
  • 00:19:51
    parce qu'on savait que c'était des
  • 00:19:51
    choses que avait pas mémorisé, qu'il
  • 00:19:53
    fallait internet et cetera. Ouais, la
  • 00:19:55
    vision agent, elle était pas encore tout
  • 00:19:56
    à fait complète à l'époque. Et
  • 00:19:57
    typiquement, il y a à ce momentl on
  • 00:19:59
    commence aussi à entendre parler des
  • 00:20:00
    fameux modèles de raisonnement. Ouais,
  • 00:20:03
    pareil pour quelqu'un qui n'a pas
  • 00:20:04
    forcément suivi, qui a entendu parler de
  • 00:20:06
    O3, les dips évidemment dips R1 que tout
  • 00:20:09
    le monde connaîtra. C'est quoi cette
  • 00:20:11
    histoire de raisonnement et pourquoi ça
  • 00:20:12
    peut aider ? Quand on a commencé à voir
  • 00:20:14
    des modèles de raisonnement, on l'
  • 00:20:15
    expliquait de la façon suivante, c'est
  • 00:20:16
    des modèles qui réfléchissent avant de
  • 00:20:18
    parler, qui ont faire des des calculs en
  • 00:20:20
    interne pour se donner un peu plus de
  • 00:20:22
    chance de d'arriver à la bonne réponse
  • 00:20:23
    avant de te donner toi la réponse
  • 00:20:25
    finale. Donc ça c'est qualitativement,
  • 00:20:26
    ça correspond à peu près à ce qui est
  • 00:20:28
    fait.
  • 00:20:29
    Fondamentalement, quand tu poses une
  • 00:20:30
    question à ton modèle, ton LM répond en
  • 00:20:33
    général instantanément et va il est
  • 00:20:34
    entraîné pour te donner directement la
  • 00:20:36
    réponse. Mais tu peux aussi avoir envie
  • 00:20:38
    de mettre un peu plus de compute dans
  • 00:20:41
    ton modèle, lui donner un peu de temps
  • 00:20:42
    pour qu'il fasse des calculs pour
  • 00:20:44
    arriver à cette bonne réponse. Le
  • 00:20:45
    raisonnement, ça englobe beaucoup de
  • 00:20:47
    techniques différentes. Une technique
  • 00:20:48
    très simple, c'est d'appeler 32 fois le
  • 00:20:50
    modèle sur la même question et au lieu
  • 00:20:52
    de retourner la première réponse, bah tu
  • 00:20:53
    retournes la réponse la plus compte
  • 00:20:55
    majority. Ah oui, dans la plus
  • 00:20:56
    fréquente, tu échanges de l'énergie
  • 00:20:59
    enfin de vo de la puissance de calcul
  • 00:21:01
    contre une un résultat plus sûr du coup.
  • 00:21:03
    Exactement. Est-ce que tu penses que ça
  • 00:21:04
    a pu participer à sur le cas de GAA au
  • 00:21:07
    fait que les performances grimpent aussi
  • 00:21:09
    ? Ouais, sans doute. Pourquoi ? Parce
  • 00:21:10
    que ce que j'ai fait sur mon graphique,
  • 00:21:12
    c'est que j'ai aussi à chaque score,
  • 00:21:14
    j'ai associé un un modèle qui était
  • 00:21:16
    derrière l'orchestration. Au début du
  • 00:21:18
    graphe, tu vois que c'est toujours GPT4
  • 00:21:21
    le moteur GPT4 turbo, GPT4 et puis au
  • 00:21:25
    moment des au moment de l'inflexion,
  • 00:21:27
    c'est aussi le moment où one le modèle
  • 00:21:29
    de reasoning d'op release. Donc je sais
  • 00:21:31
    pas septembre, octobre, novembre 2024.
  • 00:21:34
    Bah, tu vois que dans les modèles euh
  • 00:21:35
    qui prennent le State of the Art, qui
  • 00:21:37
    ont le meilleur score, on commence à
  • 00:21:39
    voir des resoning modèles. Donc, tu as
  • 00:21:40
    one, tu as aussi des modèles de la boîte
  • 00:21:42
    concurrente en tropique qui qui intègre
  • 00:21:44
    un peu de reasoning. Et donc euh bah
  • 00:21:46
    empiriquement effectivement, on a
  • 00:21:47
    l'impression que parce que l'explosion
  • 00:21:49
    coïncide avec le la release d'oper de O1
  • 00:21:51
    et des modèles reasoning et parce que
  • 00:21:53
    dans les meilleurs modèles on voit des
  • 00:21:54
    modèles reasoning, on peut penser que
  • 00:21:56
    c'est la deuxième partie de la réponse
  • 00:21:57
    de ce deuxième boom. Moi, il y a j'ai
  • 00:21:59
    l'impression enfin il y a un truc dont
  • 00:22:01
    dont je voudrais parler après, c'est que
  • 00:22:02
    dans cette donc dans cette trajectoire,
  • 00:22:04
    tu nous as expliqué, il y avait des
  • 00:22:05
    orchestrateurs au début qui avait un
  • 00:22:07
    côté très euh manuel, c'est-à-dire que
  • 00:22:09
    il y a un florilège d'outils euh et de
  • 00:22:12
    tout un écosystème qui s'est créé autour
  • 00:22:15
    à la fois des de l'inférence de le fait
  • 00:22:16
    de faire marcher des modèles mais même
  • 00:22:18
    de leur orquest estration justement. Et
  • 00:22:21
    très souvent c'est c'est fascinant parce
  • 00:22:23
    que tu veux pas dire qu'on met la
  • 00:22:24
    charrue avant les bœ mais c'est qu'on
  • 00:22:26
    construit des usines à gaz parfois sur
  • 00:22:30
    des modèles qui deviennent un peu
  • 00:22:32
    obsolètes de temps en temps dès que le
  • 00:22:34
    modèle suin arrive. Mais c'est pas
  • 00:22:35
    grave, c'est intéressant mais dans les
  • 00:22:36
    exemples que j'ai en tête, il y a des CR
  • 00:22:38
    ou des choses comme ça où c'est une
  • 00:22:39
    magnifique machine mais le truc c'est un
  • 00:22:41
    bordel avec des équipes de multiagents
  • 00:22:43
    qui discutent entre eux et cetera. Et
  • 00:22:45
    j'ai l'impression que là très récemment,
  • 00:22:47
    là on est en train d'arriver euh on a vu
  • 00:22:49
    euh à des très bons scores sur GAA que
  • 00:22:52
    euh les tout derniers modèles, ceux qui
  • 00:22:55
    sont vraiment tout en haut de la courbe
  • 00:22:56
    justement, c'est des systèmes où il y a
  • 00:22:57
    moins cette orchestration manuelle
  • 00:22:59
    justement et si j'ai bien compris, c'est
  • 00:23:01
    entre autres grâce au reinforcement
  • 00:23:02
    learning. Est-ce que tu peux nous
  • 00:23:04
    expliquer un petit peu Ouais. qu'est-ce
  • 00:23:05
    que qu'est-ce que c'est que cette
  • 00:23:07
    histoire de reinforcement learning et et
  • 00:23:09
    pourquoi ça arrive maintenant et pas
  • 00:23:10
    avant ? Il y a deux parties à ta
  • 00:23:12
    question. Ma vision de la recherche sur
  • 00:23:14
    l'LLM et en général, c'est que tu dois
  • 00:23:17
    en permanence euh trouver le point
  • 00:23:19
    d'équilibre entre euh, tu vois, le
  • 00:23:21
    contraindre trop euh et l'empêcher euh
  • 00:23:24
    de faire ce qui sait bien faire et
  • 00:23:25
    l'aider. Et donc euh par exemple, quand
  • 00:23:27
    tu tu veux apprendre un modèle euh être
  • 00:23:30
    bon sur une certaine tâche, tu veux
  • 00:23:32
    avoir envie de modifier l'architecture
  • 00:23:33
    du modèle pour que ça corresponde
  • 00:23:34
    parfaitement à ton problème. Par
  • 00:23:35
    exemple, quand on travait sur les
  • 00:23:36
    problèmes de sciences et de molécules,
  • 00:23:37
    on avait tendance à intégrer des
  • 00:23:39
    connaissances physiques dans
  • 00:23:40
    l'architecture pour aider le modèle, tu
  • 00:23:42
    vois. Et ça quand tu as pas beaucoup de
  • 00:23:44
    données et que ton modèle est pas
  • 00:23:45
    terrible, ça l'aide énormément. Puis
  • 00:23:47
    après, plus tu progresses dans le
  • 00:23:48
    domaine et plus tu acquères des données,
  • 00:23:50
    plus tu te rends compte qu'en fait en
  • 00:23:51
    enlevant une par une ces petites
  • 00:23:53
    béquilles euh ton modèle devient
  • 00:23:56
    meilleur. Mais tout l'art, c'est de
  • 00:23:57
    savoir quand les enlever. Et donc pour
  • 00:23:59
    moi, le l'orchestration, le scaffolding,
  • 00:24:00
    ça rentre potentiellement dans cette
  • 00:24:01
    catégorie là de technique où bah au
  • 00:24:03
    début, tu dois aider un peu le modèle
  • 00:24:05
    pour avancer dans ta recherche, pour
  • 00:24:07
    commencer à créer des données qui vont
  • 00:24:08
    améliorer ton modèle. Puis en fait, une
  • 00:24:10
    fois que ton modèle a suffisamment
  • 00:24:12
    progressé, tu te rends compte que
  • 00:24:13
    revenir à un truc simple, ça aide le
  • 00:24:16
    modèle. Ça l'aide parce que le modèle
  • 00:24:17
    apprend très bien tout seul une fois
  • 00:24:18
    qu'il a beaucoup donné. Ça aide aussi
  • 00:24:20
    parce que il faut être aussi humble,
  • 00:24:22
    c'est ça, tu t'enlèves des facteurs
  • 00:24:23
    d'erreur quoi. Plus tu aides le modèle,
  • 00:24:24
    plus tu as des chances de faire des
  • 00:24:26
    petites bêtises dans ton code ou
  • 00:24:27
    ailleurs. Donc simplifier les choses, ça
  • 00:24:29
    ça t'enlève des chances de faire des
  • 00:24:31
    erreurs. Tout comme mettons tu avais
  • 00:24:33
    écrit un prompt qui marchait super bien
  • 00:24:35
    avec un ancien modèle. On le disait à
  • 00:24:36
    l'époque, c'était dans les conseils
  • 00:24:37
    qu'il fallait être super précis, donner
  • 00:24:39
    énormément de d'informations, de
  • 00:24:41
    détails, de conseils au modèle pour
  • 00:24:43
    obtenir le meilleur résultat. Et
  • 00:24:45
    aujourd'hui, ce que je trouve
  • 00:24:46
    intéressant, c'est quand on regarde les
  • 00:24:47
    postes d'annonce, les blog posts et
  • 00:24:48
    cetera de ou les documents techniques
  • 00:24:50
    des entreprises qui sont les plus à la
  • 00:24:51
    pointe, il y a récemment plutôt des
  • 00:24:54
    instructions de dire "Non mais en fait,
  • 00:24:55
    tentez de simplifier vos justement vos
  • 00:24:58
    promptes." C'estàd que ce promte que tu
  • 00:24:59
    as écrit il y a il y a 2 ans hyper hyper
  • 00:25:02
    poussé, hyper avancé, essae de le
  • 00:25:04
    simplifier, de donner moins de béquille,
  • 00:25:05
    de le laisser plus libre entre
  • 00:25:06
    guillemets justement et en fait vous
  • 00:25:08
    pourriez être surpris parce que le
  • 00:25:10
    modèle a a progressé depuis quoi ?
  • 00:25:11
    Ouais, exactement. Ça c'était le la
  • 00:25:13
    première partie de ma réponse. Première
  • 00:25:14
    partie de la réponse, c'est ça. Ensuite,
  • 00:25:15
    il y a le reinforcement learning. Alors,
  • 00:25:16
    malheureusement, je vais pas avoir
  • 00:25:17
    toutes les réponses pour toi euh parce
  • 00:25:19
    que euh je les ai pas toutes moi-même.
  • 00:25:21
    Euh c'est des questions de recherche
  • 00:25:22
    encore ouvertes et puis il y en a
  • 00:25:23
    d'autres que je peux pas te donner. Mais
  • 00:25:24
    en fait, il y a une façon assez
  • 00:25:26
    naturelle de d'aborder la chose, c'est
  • 00:25:28
    que comme les modèles deviennent de plus
  • 00:25:30
    en plus forts, il y a un moment où en
  • 00:25:31
    fait pour beaucoup de tâches, ils
  • 00:25:33
    deviennent meilleurs que des humains. On
  • 00:25:34
    utilisait beaucoup des annotateurs pour
  • 00:25:36
    entraîner les modèles. Donc par exemple,
  • 00:25:37
    il y a 2 3 ans, on utilisait des
  • 00:25:38
    annotateurs pour créer des petites
  • 00:25:40
    tâches pour apprendre au modèle à suivre
  • 00:25:41
    des instructions, à traduire des textes,
  • 00:25:43
    des poèmes et cetera. Ensuite, on a fait
  • 00:25:45
    du RLHF où comme écrire un poème, c'est
  • 00:25:48
    quand même un peu compliqué. On
  • 00:25:49
    demandait aux annotateurs de choisir
  • 00:25:50
    entre deux poèmes. Bon bah aujourd'hui,
  • 00:25:52
    quand tu veux annoter pour une tâche
  • 00:25:54
    agent, c'est compliqué, ça coûte cher
  • 00:25:56
    parce que qu'est-ce qu'il faut faire ?
  • 00:25:58
    Tu prends une question GAA, est-ce que
  • 00:26:00
    tu as demandé à un annotateur d'écrire
  • 00:26:01
    toute la trajectoire étape par étape
  • 00:26:04
    avec le contenu de ce que le LLM est
  • 00:26:06
    censé mettre dans l'outil et puis le
  • 00:26:08
    retour de l'outil ? C'est compliqué.
  • 00:26:09
    Est-ce que tu vas demander à
  • 00:26:10
    l'annotateur de préférer deux
  • 00:26:11
    trajectoires ? Ouais, mais sauf que
  • 00:26:13
    comparer de trajectoires, c'est quand
  • 00:26:14
    même pas facile non plus. Donc en fait,
  • 00:26:16
    il y a une alternative qui qui émerge,
  • 00:26:18
    c'est que tu peux aussi laisser le
  • 00:26:20
    modèle trouver sa propre solution. Tu
  • 00:26:22
    prends une question, une réponse, un peu
  • 00:26:23
    comme GAA en fait, parce que les
  • 00:26:25
    questions de GA, elles sont toutes
  • 00:26:26
    vérifiables. Tu laisses le LLM jouer,
  • 00:26:28
    tenter plusieurs fois de trouver la
  • 00:26:29
    bonne réponse et puis quand tu as
  • 00:26:31
    quelques trajectoires qui sont tombées
  • 00:26:33
    sur la bonne réponse, étant donné la
  • 00:26:34
    complexité de la question, tu peux dire
  • 00:26:36
    la trajectoire moralement, elle doit
  • 00:26:38
    être correcte quoi, elle doit être
  • 00:26:39
    intéressante et donc tu la gardes et tu
  • 00:26:40
    peux utiliser comme data d'entraînement.
  • 00:26:42
    En fait, tu le laisses lui-même tester.
  • 00:26:44
    Ouais. Et voilà. Se se balader jusqu'à
  • 00:26:47
    ce que ça marche quoi. Exactement. Et
  • 00:26:48
    parfois tu es surpris parce que tu
  • 00:26:50
    trouves parfois des trajectoires assez
  • 00:26:53
    dingues que LLM a trouvé par lui-même
  • 00:26:54
    que ton annotateur aurait aurait jamais
  • 00:26:56
    fait. C'est un truc qui était je pense à
  • 00:26:58
    l'époque pas si évident que ça. Nos
  • 00:27:00
    annotateurs ont eu beaucoup de mal. Je
  • 00:27:02
    pense que à l'époque on travait avec le
  • 00:27:04
    CEO de la boîte, je pense qu'il nous
  • 00:27:06
    détestait
  • 00:27:08
    parce qu'en fait on leur faisait
  • 00:27:09
    reprendre les questions plusieurs fois
  • 00:27:10
    jusqu'à ce que deux trois personnes,
  • 00:27:12
    parfois quatre pour les plus durs
  • 00:27:13
    tombent toutes sur la même réponse. Donc
  • 00:27:15
    en fait une fois que tu as ça, bon bah
  • 00:27:18
    tu as ramené un problème de la vie
  • 00:27:20
    réelle plus ou moins parce que même les
  • 00:27:21
    questions de ga sont parfois un peu non
  • 00:27:23
    naturelles, mais un truc que tu arrives
  • 00:27:25
    à vérifier. Et donc là, tu peux
  • 00:27:26
    appliquer des approches du style essayer
  • 00:27:28
    plusieurs fois jusqu'à ce que ton modèle
  • 00:27:29
    réussisse. Et typiquement, de ce que
  • 00:27:31
    j'ai compris, c'est plutôt récent.
  • 00:27:32
    C'estd que aujourd'hui, c'est un sujet
  • 00:27:35
    plutôt chaud dans toutes les équipes les
  • 00:27:37
    plus à la pente. Et je sais notamment
  • 00:27:39
    que chez chez Open AI, la la fameuse
  • 00:27:41
    fonctionnalité dont je parlais, type
  • 00:27:42
    research, c'est O3, donc leur modèle de
  • 00:27:45
    raisonnement qu'ils ont justement fine
  • 00:27:47
    tuné avec du first learning sur des
  • 00:27:51
    tâches relativement complexes
  • 00:27:52
    d'exploration de l'internet. C'est un
  • 00:27:54
    truc dont les les résultats sont
  • 00:27:56
    clairement visibles dès maintenant.
  • 00:27:58
    Justement là, ce qui est intéressant,
  • 00:27:59
    c'est que on arrive à ces 80 % à peu
  • 00:28:01
    près. Est-ce que vous ça vous fait ça
  • 00:28:03
    vous fait flipper ? Votre votre
  • 00:28:04
    benchmark est est-il bientôt saturé ou
  • 00:28:06
    pas ? Le niveau 1, oui, clairement. Le
  • 00:28:09
    niveau 2, on n'est pas très loin. Le
  • 00:28:10
    niveau 3, par contre, on est qu'à 60 %.
  • 00:28:13
    et on a commencé à atteindre un petit
  • 00:28:15
    plateau sur le niveau 3. Je pense que
  • 00:28:16
    les questions du niveau 3 sont
  • 00:28:18
    suffisamment difficiles pour qu'on ait
  • 00:28:19
    pas encore à l'heure actuelle la gamme
  • 00:28:21
    d'outils qui permet de les accomplir
  • 00:28:23
    vraiment efficacement. Donc le niveau 3
  • 00:28:25
    va encore tenir 6 mois, j'espère.
  • 00:28:28
    J'espère. OK. Ça veut dire que c'est
  • 00:28:29
    intéressant, c'est qu'on est plutôt en
  • 00:28:30
    fin du cycle de vie a priori GA CL de
  • 00:28:33
    GAA. Et alors la question c'est quoi les
  • 00:28:35
    les benchmarks d'après qui vont mesurer
  • 00:28:38
    justement ces modèles qui savent qui
  • 00:28:39
    savent faire du GAA et justement est-ce
  • 00:28:41
    queils existent ces ces benchmarks déjà
  • 00:28:42
    ? Il y a une partie des benchmarks qui
  • 00:28:44
    existent à l'heure actuelle. Typiquement
  • 00:28:45
    Brow Comp qui a été sorti par Open AI,
  • 00:28:47
    c'est une version 2 de GAA. Eux au lieu
  • 00:28:50
    de demander à leurs annotateurs de
  • 00:28:52
    réfléchir à leurs questions étape par
  • 00:28:54
    étape et de rajouter des étapes de
  • 00:28:55
    complexité, ils sont partis dans l'autre
  • 00:28:57
    sens. Ils ont dit, "Si on veut que la
  • 00:28:59
    réponse ce soit ça, comment est-ce qu'on
  • 00:29:01
    doit écrire la question pour qu'elle
  • 00:29:03
    soit suffisamment compliquée pour
  • 00:29:04
    nécessiter un grand nombre d'étapes ?"
  • 00:29:06
    Ah, par exemple, si tu veux arriver à le
  • 00:29:09
    papier machin,
  • 00:29:11
    comment est-ce que tu décomposes
  • 00:29:13
    l'identité de cet objet pour que ce soit
  • 00:29:15
    dur à trouver ? Par exemple, le premier
  • 00:29:17
    auteur a fait telle université, le 4è
  • 00:29:19
    auteur a fait telle autre université et
  • 00:29:21
    a habité là pendant ses études et le
  • 00:29:23
    papier a été soumis à telle conférence.
  • 00:29:25
    Et donc en partant de la fin entre
  • 00:29:28
    guillemets, ils ont construit des
  • 00:29:29
    questions qui ont une complexité qui est
  • 00:29:30
    similaire à celle de GA. Le petit
  • 00:29:32
    problème de ce benchmark là, c'est
  • 00:29:33
    qu'ils n'ont pas de garantie de solution
  • 00:29:35
    unique. Ah oui, parce qu'après ils ont
  • 00:29:36
    mesuré le temps que prenaient des
  • 00:29:38
    annotateurs à accomplir les questions.
  • 00:29:40
    Dans quelque chose comme 70 ou 80 % des
  • 00:29:42
    cas, les annotateurs abandonnent après 2
  • 00:29:44
    heures. Donc ils n'ont pas de garantie.
  • 00:29:47
    Psychopathe continuez. C'est exactement
  • 00:29:50
    ça. En fait, ils n'ont pas de garantie
  • 00:29:52
    que les l'espace des solutions soit
  • 00:29:53
    unique. Hm. Alors que GAA, nous on sait
  • 00:29:56
    de façon certaine que toutes nos
  • 00:29:57
    questions sont faisables par des
  • 00:29:59
    humains, mais leurs questions sont
  • 00:30:01
    globalement, je pense plus complexe.
  • 00:30:03
    GAA, il y a aussi le fait que GAA, c'est
  • 00:30:05
    l'internet de 2023 qui a un petit peu
  • 00:30:07
    changé. On a essayé de se focaliser à
  • 00:30:09
    l'époque sur des sources qui
  • 00:30:10
    changeraient peu dans le temps,
  • 00:30:11
    Wikipédia, les sites de recherche
  • 00:30:13
    académique et cetera, mais il y a quand
  • 00:30:15
    même probablement des références qui
  • 00:30:16
    sont cassées. Browcom, ils sont sortis
  • 00:30:18
    il y a quelques mois et donc Browcom,
  • 00:30:20
    c'est un bon euh GAA V1.5 5 quoi
  • 00:30:23
    concrètement, c'est un peu le même type
  • 00:30:25
    de question. Ça demande aussi un certain
  • 00:30:28
    nombre d'étapes de raisonnement, un peu
  • 00:30:29
    plus de recherche et je dirais un petit
  • 00:30:31
    peu moins d'outils de ce que j'ai pu
  • 00:30:32
    voir, mais globalement on est sur la
  • 00:30:34
    vraiment la ligne philosophique de GAA.
  • 00:30:36
    OK. Donc ça c'est Brosc du coup.
  • 00:30:38
    Exactement. Et là, on est sur des
  • 00:30:39
    benchmarks qui sont des benchmarks en
  • 00:30:42
    lecture du monde. Donc, c'est des
  • 00:30:43
    benchmarks qui vont chercher de
  • 00:30:44
    l'information et qui te donne une
  • 00:30:47
    réponse globalement unique. Après, tu as
  • 00:30:49
    des benchmarks qui existent aussi qui
  • 00:30:52
    sont des benchmarks pour des tâches
  • 00:30:53
    d'assistance scientifique. Et ça, c'est
  • 00:30:55
    un peu la version 2 des benchmarks de
  • 00:30:57
    code. Un benchmark de code, tu demandes
  • 00:30:59
    à un modèle de générer du code. Si
  • 00:31:01
    jamais le code passe des tests
  • 00:31:04
    informatiques, en fait, c'est bon. Si
  • 00:31:06
    jamais ça ne passe pas les tests
  • 00:31:07
    informatiques, c'est pas bon. La version
  • 00:31:09
    suivante, c'est est-ce que des modèles
  • 00:31:13
    peuvent résoudre des tâches
  • 00:31:15
    scientifiques pour toi ? Il y a trois
  • 00:31:16
    benchmarks qui sont assez chouettes
  • 00:31:18
    là-dedans. Tu en as un qui s'appelle
  • 00:31:19
    Dapstep, c'est de l'analyse de données,
  • 00:31:22
    c'est-à-dire que tu files tout un
  • 00:31:24
    ensemble de jeux de données structurés
  • 00:31:26
    et tu demandes au modèle de faire de
  • 00:31:29
    l'analyse vraiment précise de donc par
  • 00:31:31
    exemple, tu lui donnes un CSV de 50 Go
  • 00:31:35
    de d'une entreprise ou des documents
  • 00:31:37
    financiers, des trucs. Ouais, c'est
  • 00:31:38
    exactement ça. Et tu poses une question
  • 00:31:40
    ultra sombre. Hm hm. Il y a
  • 00:31:41
    littéralement des questions du genre sur
  • 00:31:43
    le vendeur machin, si jamais ils avaient
  • 00:31:45
    passé leur côte de telle valeur à telle
  • 00:31:48
    valeur, de combien est-ce que les taux
  • 00:31:49
    de change auraient changé en 2023 à
  • 00:31:52
    partir de 7 XL de X000 ligne. Et là, tu
  • 00:31:55
    as besoin de 15 étapes de faire des
  • 00:31:57
    requêtes très complexes SQL ou des
  • 00:31:59
    choses comme ça. C'est ça. Déjà, c'est
  • 00:32:00
    génial parce que justement quand on fait
  • 00:32:02
    la comparaison entre peut-être des vieux
  • 00:32:03
    benchmark et des trucs comme ça,
  • 00:32:04
    franchement euh ça avoir des LLM qui euh
  • 00:32:06
    connaissent euh Wikipédia par cœur, si
  • 00:32:09
    c'est pas c'est sympa, mais dans la
  • 00:32:10
    vraie dans la vraie vie, en fait, un peu
  • 00:32:12
    tout le monde s'en fout, quoi. Euh alors
  • 00:32:14
    que là, ce qui c'est génial parce que
  • 00:32:15
    c'est des usages réels. Ouais. Et on va
  • 00:32:18
    pouvoir mesurer très concrètement la
  • 00:32:21
    productivité en fait, c'est comment ces
  • 00:32:22
    modèles vont vraiment être utilisés.
  • 00:32:24
    C'est ça, c'est génial. Ouais. Et c'est
  • 00:32:26
    assez intéressant parce que ce que tu
  • 00:32:27
    euh pointes, c'est aussi un gros
  • 00:32:28
    changement de paradigme dans le monde de
  • 00:32:30
    l'évaluation. Avant on disait pour
  • 00:32:32
    évaluer les capacités d'un modèle, on va
  • 00:32:33
    évaluer les capacités de connaissance.
  • 00:32:35
    Donc MMLU c'était de la connaissance. Et
  • 00:32:37
    après, tu as eu des gros benchmarks
  • 00:32:38
    comme GPQA ou euh HLE. HLE c'est
  • 00:32:41
    Humanities Last Exam. C'est des
  • 00:32:43
    questions ultra pointu niveau thèse en
  • 00:32:47
    linguistique, en bio, en chimie. Je veux
  • 00:32:49
    dire, c'est horrible. Tu lis la
  • 00:32:51
    question, tu comprends pas 50 % des mots
  • 00:32:53
    ? Tant que tu en parles, je propose
  • 00:32:54
    qu'on aille regarder le site justement
  • 00:32:56
    parce qu'il est assez rigolo justement
  • 00:32:57
    pour don les questions, elles sont
  • 00:32:58
    voilà, elles sont incroyables. Ouais,
  • 00:33:00
    celle-là c'est ma préférée. Est génial.
  • 00:33:02
    Voici une représentation d'une
  • 00:33:03
    inscription romaine initialement
  • 00:33:05
    découverte sur une pierre tombale.
  • 00:33:06
    Fournissez une traduction du texte en
  • 00:33:08
    palmiren. La translitération est
  • 00:33:10
    fournie. Et la la question d'un côté est
  • 00:33:12
    incroyable. Celle-là, je n'ai rien
  • 00:33:14
    compris la traduction. C'est les
  • 00:33:15
    colibris de l'ordre des apodiformes ont
  • 00:33:17
    une caractéristique unique. Ils
  • 00:33:18
    possèdent un os oval bilatéral.
  • 00:33:20
    sésamoïdes situé dans la partie
  • 00:33:22
    codolatérale de l'aponévrose croisée
  • 00:33:24
    élargie de l'insertion du muscle
  • 00:33:25
    dépresseur de la queue. Combien de
  • 00:33:27
    tendons appariés sont soutenu par cet os
  • 00:33:29
    sésamoïde ? C'est pour ça que ça
  • 00:33:31
    s'appelle Humanities last exam, c'est
  • 00:33:33
    que après après celui-là exactement tu
  • 00:33:36
    as fini le game normalement. Non mais
  • 00:33:37
    c'est ça mais ceci mais c'est
  • 00:33:38
    intéressant parce que là ça mesure pas
  • 00:33:40
    la même chose en fait. Ouais. Et ça ce
  • 00:33:41
    qui est intéressant c'est que du coup
  • 00:33:42
    c'est des questions de connaissance. Et
  • 00:33:44
    le gros problème de ce genre euh
  • 00:33:47
    d'évales, c'est que c'est invérifiable
  • 00:33:49
    par un humain normal. Personne ne peut
  • 00:33:51
    valider la bonne réponse mise à part le
  • 00:33:53
    mec expert en colibri ou en linguistique
  • 00:33:55
    qui a soumis la question, je dire et du
  • 00:33:57
    coup ça donne des benchmarks qui
  • 00:33:59
    mesurent des choses impossibles à
  • 00:34:00
    valider par l'humain, ce qui est un
  • 00:34:02
    problème parce qu'en fait on veut
  • 00:34:04
    valider au fur et à mesure, on veut
  • 00:34:05
    pouvoir avoir confiance en le système en
  • 00:34:06
    fait si tu veux. Et ensuite ça mesure
  • 00:34:09
    des choses dont tout le monde se fout.
  • 00:34:11
    Est-ce que pour faire l'avocat du
  • 00:34:13
    diable, vas-y. Est-ce que justement sur
  • 00:34:14
    F exam les questions qu'on a vu, tu
  • 00:34:17
    pourrais te dire "OK, il y a une
  • 00:34:18
    personne qui peut le faire de tête
  • 00:34:19
    éventuellement ce truclou mais une autre
  • 00:34:21
    manière de craquer le problème qui est
  • 00:34:22
    peut-être encore plus probable, c'est
  • 00:34:24
    qu'en fait tu as un excellent outil de
  • 00:34:26
    recherche approfondie. Exactement. et
  • 00:34:28
    que tu vas pouvoir aller très loin
  • 00:34:29
    trouver la documentation de la
  • 00:34:31
    traduction de cette langue obscure,
  • 00:34:32
    scanner la page avec un de la vision
  • 00:34:35
    enfin et trouver des détails. Mais c'est
  • 00:34:37
    exactement ça le point en fait, c'est
  • 00:34:38
    que du coup avant les gens mesuraient de
  • 00:34:39
    la connaissance pure et maintenant on
  • 00:34:41
    est en train de transitionner parce que
  • 00:34:43
    mesurer de la connaissance pure si
  • 00:34:44
    jamais tu y as accès via un outil super
  • 00:34:47
    puissant, ça te dit pas grand-chose. Ce
  • 00:34:49
    que tu veux c'est mesurer vraiment de la
  • 00:34:53
    complexité dans le raisonnement sur des
  • 00:34:54
    tâches réelles qui vont être utiles aux
  • 00:34:56
    humains. Donc c'est précisément là que
  • 00:34:58
    on transitionne de benchmark de
  • 00:35:01
    connaissance à la GPQA, c'est la même
  • 00:35:02
    chose mais pour des questions de thèse
  • 00:35:04
    en math physique bio ou à la Humanity
  • 00:35:07
    Last Exam vers du GA du DAP Steep. Tu as
  • 00:35:11
    Code c'est des problématiques
  • 00:35:13
    logicielles. Paper Bench c'est open AI.
  • 00:35:15
    Il file un papier et le LLM doit générer
  • 00:35:18
    le code de machine learning qui prouve
  • 00:35:21
    ce qui est expliqué dans le papier
  • 00:35:22
    scientifique et c'est décomposé en plein
  • 00:35:24
    de petites étapes et cetera. Il y a pas
  • 00:35:26
    mal de de benchmarks qui mesurent en
  • 00:35:28
    fait ce genre de choses appliquées à des
  • 00:35:31
    problèmes qui vont être utiles pour des
  • 00:35:33
    vrais gens. En fait, il y a un autre
  • 00:35:34
    truc que les gens font, c'est
  • 00:35:36
    l'évaluation synthétique sur leurs
  • 00:35:37
    propres données. Nous, on a un truc qui
  • 00:35:39
    s'appelle yourbench par exemple et ça
  • 00:35:40
    prend des LLM qui vont extraire des
  • 00:35:43
    questions et des données. Tu files tes
  • 00:35:45
    données à toi, ça te génère un benchmark
  • 00:35:47
    qui est de la questionréponse sur le
  • 00:35:50
    type de données toi qui t'intéresse. Ça
  • 00:35:52
    peut être du légal, ça peut être du
  • 00:35:53
    médical, ça peut être ce que tu veux. Et
  • 00:35:55
    donc tu as ton benchmark qui te permet
  • 00:35:56
    de juger les qualités des modèles sur
  • 00:35:59
    ton cas d'usage. Par exemple, si jamais
  • 00:36:01
    tu veux savoir quel est le meilleur
  • 00:36:02
    modèle pour t'aider à écrire des
  • 00:36:03
    requêtes SQL, bah tu peux prendre la doc
  • 00:36:05
    de SQL, te faire un benchmark à partir
  • 00:36:07
    de ça qui va être sur les questions qui
  • 00:36:09
    toi t'intéressent et euh après tester
  • 00:36:12
    les allez 10 top modèles du moment et
  • 00:36:15
    voir lequel fonctionne mieux pour toi.
  • 00:36:17
    Ça c'est vraiment intéressant parce que
  • 00:36:19
    effectivement c'est un concept que j'ai
  • 00:36:20
    déjà entendu que à la fin le mieux c'est
  • 00:36:22
    ton propre benchmark et l'avantage c'est
  • 00:36:24
    que là pour le coup c'est des données
  • 00:36:25
    qui seront qui vont pas liquer
  • 00:36:26
    publiquement. Tu les as maîtrises, tu
  • 00:36:29
    sais que c'est pas bullshit. Exact. Tout
  • 00:36:30
    à fait et ça peut aussi te permettre de
  • 00:36:31
    gagner du temps en faisant un premier
  • 00:36:33
    jeu d'évaluation. Tu le fais valider par
  • 00:36:35
    tes experts en interne et ça te fait
  • 00:36:36
    après du coup ton petit jeu en interne
  • 00:36:39
    que tu réutiliseras jusqu'à ce que les
  • 00:36:40
    modèles soient suffisamment bon que ta
  • 00:36:42
    mini éval soit saturée aussi et tu
  • 00:36:44
    recommences.
  • 00:36:44
    Très cool. On a parlé des successeurs de
  • 00:36:47
    GAA. Est-ce que vous vous bossez sur des
  • 00:36:50
    trucs sur la suite ? Bah moi pareil, je
  • 00:36:52
    peux pas vraiment en parler mais je
  • 00:36:55
    encore une fois quand tu quand tu
  • 00:36:56
    développes, on développe des modèles et
  • 00:36:57
    quand tu développes des modèles, tu dois
  • 00:36:59
    avoir une boussole et si n'as pas de
  • 00:37:00
    boussole, tu ne peux rien faire. Donc
  • 00:37:02
    c'est des questions qu'on se pose. OK.
  • 00:37:03
    Peut-être qu'on peut dire que ça fait 6
  • 00:37:05
    mois qu'on fait une collaboration et que
  • 00:37:07
    peut-être que c'est très très lié au
  • 00:37:08
    thème qu'on vient de voir et que si
  • 00:37:11
    jamais un jour ça sort, peut-être
  • 00:37:14
    peut-être qu'on en reparlerait.
  • 00:37:15
    Peut-être qu'on en reparlera.
  • 00:37:16
    Exactement. Si ça vous a intéressé, je
  • 00:37:18
    vous conseille vivement notre interview
  • 00:37:20
    d'une chercheuse en IA qui nous a
  • 00:37:22
    présenté une question assez peu abordée
  • 00:37:24
    et pourtant préoccupante de
  • 00:37:26
    l'auto-empoisonnement des IA et de ce
  • 00:37:28
    qui pourrait arriver dans quelques
  • 00:37:30
    années. C'était dans cette vidéo.
Tags
  • IA
  • OpenAI
  • Deep Research
  • GAA
  • benchmark
  • modèles de raisonnement
  • évaluation
  • reinforcement learning
  • tâches complexes
  • analyse de données