L'IA vient de passer un cap énorme (mais personne n'en parle)
摘要
TLDRCette vidéo explore les avancées récentes dans les modèles d'IA, en mettant l'accent sur le Deep Research d'OpenAI, qui permet des requêtes complexes et l'utilisation d'outils variés. Les intervenants discutent des benchmarks comme GAA, leur évolution et l'impact des modèles de raisonnement. Ils soulignent l'importance de créer des benchmarks adaptés aux tâches réelles pour évaluer efficacement les capacités des modèles d'IA. La conversation aborde également les défis de l'évaluation des modèles et l'importance du reinforcement learning dans l'apprentissage des modèles d'IA.
心得
- 🚀 Le Deep Research d'OpenAI permet des requêtes complexes.
- 📊 GAA est un benchmark pour évaluer les capacités des modèles d'IA.
- 🔍 Les benchmarks évoluent vers des tâches pratiques et réelles.
- ⚖️ L'évaluation des modèles d'IA doit être adaptée aux contextes réels.
- 🧠 Le reinforcement learning aide les modèles à apprendre de leurs expériences.
- 📈 Les benchmarks peuvent devenir saturés et ne pas refléter les capacités réelles.
- 🛠️ Des benchmarks synthétiques peuvent être créés pour des domaines spécifiques.
- 🔮 L'avenir des benchmarks d'IA se concentre sur des tâches complexes et utiles.
时间轴
- 00:00:00 - 00:05:00
L'intervenant exprime sa lassitude face aux nouveaux modèles d'IA, jusqu'à ce qu'il découvre Deep Research d'OpenAI, qui permet des requêtes complexes et change sa façon de travailler. Il s'interroge sur les avancées techniques derrière ces modèles.
- 00:05:00 - 00:10:00
Il mentionne un partenariat avec Mammou AI, qui propose une interface rassemblant divers modèles d'IA à un prix abordable, et introduit les créateurs du benchmark GAA, qui vont expliquer ses résultats et l'innovation d'OpenAI.
- 00:10:00 - 00:15:00
Les créateurs de GAA discutent de leur parcours et de la nécessité d'évaluer les capacités des agents d'IA, en se concentrant sur la création de tâches complexes et utiles pour les utilisateurs.
- 00:15:00 - 00:20:00
Ils expliquent comment ils ont mesuré la complexité des tâches en fonction du nombre d'étapes et d'outils nécessaires, et partagent des exemples de questions de différents niveaux de difficulté.
- 00:20:00 - 00:25:00
Les créateurs de GAA partagent leurs expériences avec les modèles d'IA de l'époque, notant que les performances étaient médiocres, et discutent des défis liés à la création de questions vérifiables et complexes.
- 00:25:00 - 00:30:00
Ils abordent la saturation des benchmarks précédents, soulignant que les modèles atteignaient des scores élevés sur des questions devenues faciles, et l'importance de créer des évaluations qui mesurent des capacités plus avancées.
- 00:30:00 - 00:37:38
Enfin, ils discutent des nouveaux benchmarks, comme Brow Comp, qui évaluent des tâches complexes et réelles, et de l'évolution vers des évaluations plus pertinentes qui mesurent la capacité des modèles à résoudre des problèmes concrets.
思维导图
视频问答
Qu'est-ce que le Deep Research d'OpenAI ?
C'est un mode dans ChatGPT qui permet de poser des requêtes complexes et d'utiliser divers outils pour obtenir des réponses.
Qu'est-ce que GAA ?
GAA est un benchmark qui évalue les capacités des modèles d'IA à accomplir des tâches complexes.
Comment les benchmarks d'IA ont-ils évolué ?
Ils sont passés de l'évaluation de la connaissance à des tâches plus complexes et pratiques, comme l'analyse de données.
Pourquoi est-il important de créer des benchmarks adaptés ?
Pour mesurer efficacement les capacités des modèles d'IA dans des contextes réels et éviter la saturation des benchmarks.
Qu'est-ce que le reinforcement learning ?
C'est une méthode d'apprentissage où les modèles apprennent à partir de leurs propres expériences et tentatives.
Quels sont les défis des benchmarks actuels ?
Ils peuvent être saturés ou ne pas refléter les capacités réelles des modèles d'IA.
Comment les modèles d'IA peuvent-ils être évalués de manière plus efficace ?
En utilisant des benchmarks synthétiques basés sur des données spécifiques à un domaine.
Quelles sont les prochaines étapes pour les benchmarks d'IA ?
Développer des benchmarks qui mesurent des tâches complexes et réelles, comme l'analyse de données.
查看更多视频摘要
The Donner Party
How to Draw Backgrounds (3-Point Perspective)
VIERNES DE CINE ONLINE -QUEERCORE: HOW TO PUNK A REVOLUTION (Alemania 2017)🎥🎥🎥🎥📽📽📽
Iran : le mollah, les femmes et le voile | ARTE Reportage
When YOU Become Your Enemy - Autoimmune Disease Explained
Col. Jacques Baud: EU’s INSANE Move Against Iran Could DESTROY Europe!
- 00:00:00Ça fait quelques mois que j'avoue que je
- 00:00:01me suis lassé de suivre les nouveaux
- 00:00:03modèles d' DIIA entre méta open AI
- 00:00:05anthropique. À chaque annonce, c'est
- 00:00:07intéressant mais j'avais la sensation
- 00:00:09qu'on atteignait une sorte de plateau,
- 00:00:11rien de révolutionnaire. Et puis il y a
- 00:00:14eu Deep research d'open AI. C'est un
- 00:00:16mode spécifique dans chat GPT où au lieu
- 00:00:18de lui poser une question simple, vous
- 00:00:20pouvez lui demander une requête vraiment
- 00:00:22complexe. Et là, c'est magique plutôt
- 00:00:25que de répondre instantanément comme
- 00:00:27d'habitude, il boucle, il utilise des
- 00:00:29outils, il a accès à un internet même
- 00:00:30pour lire des PDF ou des images. Et pour
- 00:00:34la première fois depuis longtemps, je me
- 00:00:36suis pris une claque monumentale et sans
- 00:00:39exagération, ma façon de travailler a
- 00:00:41complètement changé. Maintenant, je fais
- 00:00:43au moins 10 10 par jour pour mes
- 00:00:46rapports, mes comparaisons avant
- 00:00:47d'acheter des choses tout le temps. Mais
- 00:00:49il y a un truc qui m'a obsédé, c'est
- 00:00:51qu'est-ce qui a changé techniquement
- 00:00:53dans ces modèles pour que ça marche
- 00:00:55aussi bien ? Est-ce que c'est juste le
- 00:00:56modèle O3 avec une connexion internet ou
- 00:00:59est-ce que ça va plus loin que ça ?
- 00:01:01C'est en cherchant ces réponses que je
- 00:01:03suis tombé sur un benchmark. Il
- 00:01:04s'appelle GAA et on a eu le privilège de
- 00:01:08recevoir ses créateurs. Ils vont nous
- 00:01:09expliquer ce graphique que vous voyez à
- 00:01:12l'écran. ce que les thinking models ont
- 00:01:14vraiment débloqué mais surtout et c'est
- 00:01:16moins connu, quelle est la sauce secrète
- 00:01:18d'open AI qui fait que deep Research
- 00:01:20marche mieux que toute la concurrence.
- 00:01:22Mais juste avant, j'ai justement un
- 00:01:24message pour tous ceux qui aimeraient
- 00:01:25utiliser les meilleurs modèles DI mais
- 00:01:28qui trouvent que l'addition commence à
- 00:01:29être salée. Notre partenaire Mammou AI
- 00:01:32propose une interface unique qui les
- 00:01:34rassemble tous. Et quand je dis tous, je
- 00:01:37parle du nouveau Claude Sonet 4, Jamini
- 00:01:392.5 Pro Deepsic, mais aussi les nouveaux
- 00:01:42modèles d'images comme GPT imag, flux
- 00:01:45contexte ou mi-journée. Donc plus jamais
- 00:01:48peur de rater un truc car ils mettent
- 00:01:50constamment cette liste à jour avec les
- 00:01:52nouveautés. Et là où ça devient vraiment
- 00:01:54intéressant, c'est quand on parle du
- 00:01:56prix car tout ça vous l'avez pour 10 €
- 00:01:59par mois. Ça paraît fou quand on sait
- 00:02:01que l'abonnement à chat GPT seul coûte
- 00:02:0320 dollars. Et vous pourrez même
- 00:02:04utiliser le chat vocal de chat GPT ou
- 00:02:07accéder à Perplexity de Research. Je
- 00:02:10vous mets le lien en description et on
- 00:02:11reprend. Vous, c'était quoi votre
- 00:02:13cheminement pour arriver à Ga justement
- 00:02:15? À la base, c'est euh Thomas Wolf de
- 00:02:18Hugging Face, Thomas Sial de Meta euh
- 00:02:20qui sont pote en gros et euh qui ont
- 00:02:23organiser un déjeuner dans Paris euh
- 00:02:25dans un italien et où euh Thomas Siellom
- 00:02:27euh t'a ramené et Thomas Wolf m'a
- 00:02:29ramené. Euh moi à l'époque je
- 00:02:30travaillais sur de l'évaluation et euh
- 00:02:32vous bossiez sur les prémisses des
- 00:02:34agents parce que c'est 2013 quand même
- 00:02:35donc ça n'existait pas du tout. Et donc
- 00:02:37la question s'est fait de bah comment
- 00:02:38est-ce qu'on va s'assurer que on peut
- 00:02:41dire ça ça va être un bon agent.
- 00:02:43D'ailleurs, le papier parle d'assistant
- 00:02:45et pas d'agent à l'époque. Et ça, ça va
- 00:02:47pas être un bon agent/assistant. C'était
- 00:02:49quoi vos vos premières intuitions avant
- 00:02:50de de vous lancer dans ce ce projet-là ?
- 00:02:53À la base, la question qui s'est posée
- 00:02:54sur GAA, c'est comment est-ce qu'on
- 00:02:56mesure des capacités dont on n'est pas
- 00:02:58encore sûr qu'elles auront lieu et
- 00:02:59qu'elles seront possibles ? et on savait
- 00:03:02qu'on voulait une évaluation qui soit
- 00:03:04quelque chose de difficile pour les
- 00:03:06modèles. Et la grande question qu'on
- 00:03:08s'est posé sur les premiers mois de
- 00:03:09brainstorming autour de GAA, c'était
- 00:03:11comment est-ce qu'on crée des tâches
- 00:03:13pour des assistants ancrés dans le réel
- 00:03:15qui vont être utiles à des gens ? Mais à
- 00:03:16l'époque, c'était plus de la lecture sur
- 00:03:18internet que de l'écriture pour faire
- 00:03:20des rapports et autres. Et comment
- 00:03:22est-ce qu'on mesurait la complexité ?
- 00:03:23Notre vision à l'époque, c'était plus tu
- 00:03:25dois suivre un grand nombre d'étapes,
- 00:03:27plus tu dois utiliser un grand nombre
- 00:03:29d'outils, plus c'est complexe. Par
- 00:03:31exemple, lire un PDF, c'est un outil.
- 00:03:33Interpréter sur une image, c'est un
- 00:03:35outil. Chercher sur internet, c'est un
- 00:03:36outil. En gros, les questions de niveau
- 00:03:391, c'était les questions qui allaient
- 00:03:40être faciles à débloquer dans l'année.
- 00:03:42C'était des questions qui nécessitaient
- 00:03:43très peu d'outils, très peu d'étapes. À
- 00:03:45l'inverse, les questions de niveau 3, on
- 00:03:46est entre 15 et 40 étapes. Ça donnait
- 00:03:48quoi au début en fait quand vous avez
- 00:03:49essayé vos vos modèles sur GAA ? Ben, on
- 00:03:51testait les questions sur euh les
- 00:03:53modèles qui étaient disponibles à
- 00:03:54l'époque et donc il y avait globalement
- 00:03:55que chat GPT qui était facilement
- 00:03:57accessible. Euh alors je sais pas si tu
- 00:03:59te rappelles mais à ce moment-là, Open
- 00:04:00Avait tenté une expérience où il y avait
- 00:04:02un un app store de tools que tu pouvais
- 00:04:04connecter à à chat GPT, mais en vérité,
- 00:04:07il y a peu peu de ces tools marchaient
- 00:04:08vraiment. Donc ce que je faisais, c'est
- 00:04:09que je sélectionnais à la main ceux dont
- 00:04:12je pensais qui correspondait à peu près
- 00:04:13à la question, ce qui est déjà une aide
- 00:04:15énorme pour pour le modèle. Et c'était
- 00:04:17très mauvais. les modèles en moyenne
- 00:04:19faisaient que quelques pourc moins de 10
- 00:04:20% en tout cas de succès. Et pour donner
- 00:04:22un exemple de de quels sont les les ces
- 00:04:25tâes justement difficile que que tu leur
- 00:04:27demandais, on a fait quelques
- 00:04:29traductions. Donc par exemple calculer
- 00:04:31le pourcentage de matière grasse dans
- 00:04:32une glace. Et donc ça c'est une question
- 00:04:35de niveau 2. Et donc pour donner la
- 00:04:36traduction c'est si cette peinte entière
- 00:04:38est composée de crèmes glacées, de
- 00:04:40combien de pourcent est-elle supérieure
- 00:04:41ou inférieure aux normes fédérales
- 00:04:43américaines en matière de tenneur en
- 00:04:45matière grasse ? Là, on comprend
- 00:04:46intuitivement qu'il il va y avoir besoin
- 00:04:48de d'un peu de temps, quoi. Ce qu'il
- 00:04:50faut préciser sur la question de niveau
- 00:04:512, c'est qu'on fournit une pièce jointe.
- 00:04:53Donc, il y avait déjà la lecture de
- 00:04:54l'image, extraire l'information du bon
- 00:04:57endroit de l'image, aller faire la
- 00:04:58recherche des standards fédéraux, il me
- 00:04:59semble qu'on contrôle la question avec
- 00:05:01Wikipédia. Donc, aller récupérer
- 00:05:02l'information, comparer les deux, sortir
- 00:05:04un score. Ça ça fait en gros h étapes à
- 00:05:06peu près. Là, niveau 3, on passe un cap.
- 00:05:10Donc l'astronaute de la NASA, là je vous
- 00:05:12fais la traduction dans l'image
- 00:05:14astronomique du jour de la NASA du 21
- 00:05:16janvier 2006. Donc là tu la donnes pas à
- 00:05:18l'image ? Non, il doit il doit la
- 00:05:19trouver tout seul. Tout à fait. Deux
- 00:05:21astronautes sont visibles dont l'un
- 00:05:22semble beaucoup plus petit que l'autre.
- 00:05:24En août 2023, parmi les astronautes du
- 00:05:26groupe de la NASA auquel appartenait
- 00:05:28l'astronaute le plus petit, donc là déjà
- 00:05:30moi je dois me concentrer. Lequel a
- 00:05:32passé le moins de temps dans l'espace et
- 00:05:35combien de minutes a passé l'astronaute
- 00:05:37le plus petit dans l'espace ? Et ça pour
- 00:05:39répondre à cette question, il faut
- 00:05:41combien d'étapes ? Une vingtaine
- 00:05:42d'étapes, je dirais. une vingtaine
- 00:05:43d'étapes et puis peut-être quelque chose
- 00:05:45qui est plus parlant que le nombre
- 00:05:46d'étapes, c'est aussi et une mesure
- 00:05:47qu'on commence à utiliser de plus en
- 00:05:48plus avec les les agences, c'est bah le
- 00:05:50temps en fait qu'un humain mettrait pour
- 00:05:51faire cette tâche. Je pense qu'on a été
- 00:05:53un des premiers papiers à dire combien
- 00:05:55de temps prenaient nos tâches en moyenne
- 00:05:57et je pense que ça c'est quelques
- 00:05:58minutes, quelques dizaines de minutes,
- 00:05:59peut-être 20 minutes, tu arrives à la
- 00:06:01bonne réponse. Mais on a des questions
- 00:06:02qui sont un peu plus un peu plus tricky.
- 00:06:04Par exemple, tu as une question sur
- 00:06:05Zofice et où il faut trouver le bureau
- 00:06:08de Zofice, la version anglaise et pas
- 00:06:11américaine sur Google Maps et indiquer
- 00:06:13je crois le nombre de plots de couleur
- 00:06:14jaune devant à une date donnée sur
- 00:06:17Google Maps, tu vois en Street View par
- 00:06:19exemple. Ouais. Donc là, c'est là on est
- 00:06:20plus dans 2 minutes. Là c'est là ça
- 00:06:22prend plus de temps que tu a compter les
- 00:06:24plots et cetera. Ouais. On avait même
- 00:06:25essayé de faire des petites questions
- 00:06:26d'intmark
- 00:06:28mais on avait pas réussi à faire des
- 00:06:30choses qui avaient une seule bonne
- 00:06:31réponse, tu vois. Donc on pouvait,
- 00:06:32c'était trop dur de les vérifier mais
- 00:06:34donc on était frustré. Mais on c'est ça
- 00:06:35qui est ce qui est super dur en fait
- 00:06:37c'estd que ton benchmark il doit mesurer
- 00:06:40avec le bon niveau de difficulté une
- 00:06:42donnée qui est non ambigue. Oui. Parce
- 00:06:45que tu veux pas le le vérifier à la main
- 00:06:46j'imagine il y a par exemple il y a
- 00:06:48combien de questions dans un benchmark
- 00:06:50comme ça ? Là il y en a 460 quelque
- 00:06:51chose. 460 quand même à peu près. Au
- 00:06:53moment où vous publiez le papier les
- 00:06:55premiers modèles, vous les vous les
- 00:06:57testez vous-même au sein du papier et
- 00:06:59ils sont catastrophiques. Hm hm. Et tant
- 00:07:01mieux. C'est-à-dire vous avez un bon
- 00:07:02benchmark justement ce qui va permettre
- 00:07:04de mesurer la progression et derrière la
- 00:07:05l'intérêt c'est que ça ça crée un une
- 00:07:07carotte en fait c'est un peu ça. Toutes
- 00:07:09les prochaines entreprises vont avoir
- 00:07:11envie de se battre pour augmenter les
- 00:07:12pourcents sur GAA par exemple. C'est ça
- 00:07:14qui s'est passé typiquement. C'est ce
- 00:07:15qu'on veut qu'il se passe. Et en gros ce
- 00:07:17qui est intéressant c'est que ce qu'on
- 00:07:18voit au fil du temps, c'est que au début
- 00:07:20on avait très peu de soumission pendant
- 00:07:21la première année et là en début d'année
- 00:07:24on a juste augmenté le nombre de
- 00:07:25soumissions. On le voit sur ces figures
- 00:07:27là. vraiment sur le trimestre de
- 00:07:29l'année, on a quatre ou cin fois toutes
- 00:07:31les soumissions qu'on a eu avant. Et ça
- 00:07:33c'est très intéressant rien que de rien
- 00:07:35qu'à voir les la shape de la de la
- 00:07:37courbe. On comprend que cette impression
- 00:07:40qu'on peut avoir un peu de l'extérieur
- 00:07:42que depuis un an ça bouge plus trop. En
- 00:07:44fait, c'est absolument pas vrai. Et je
- 00:07:46trouve que justement voir les exemples,
- 00:07:47ça permet de se de comprendre qu'est-ce
- 00:07:49qui a changé. Justement avant de
- 00:07:51d'expliquer qui gagne et pourquoi,
- 00:07:53est-ce qu'on peut expliquer c'était quoi
- 00:07:56avant GAA les benchmark qui existaient ?
- 00:07:59Parce que là le le fait que ça commence
- 00:08:00à 10 % pour ceux qui qui ont peut-être
- 00:08:02regardé régulièrement les benchmark, ça
- 00:08:03peut étonner. On voyait beaucoup que ce
- 00:08:05soit Google ou Anthopiic ou Open AI ou
- 00:08:08Facebook ou Meta pardon publier leurs
- 00:08:11résultats sur des benchmarks qui
- 00:08:13arrivaient à des 90 % 80 % de succès, ce
- 00:08:16qui impressionne évidemment. Mais est-ce
- 00:08:18que c'est bien déjà ? C'est la première
- 00:08:20question. Et deuxièmement, pourquoi ?
- 00:08:23Donc il y a plusieurs aspects. La
- 00:08:24première chose, c'est euh
- 00:08:26historiquement, les premiers benchmark
- 00:08:27qui sont sortis, c'était des benchmarks
- 00:08:29de connaissance. C'est-à-dire que tu
- 00:08:31allait payer euh des annotateurs un peu
- 00:08:32partout dans le monde et tu allais leur
- 00:08:34demander d'écrire des questions qui
- 00:08:36étaient inspirées de Wikipédia et cetera
- 00:08:37et cetera. Et c'était de la connaissance
- 00:08:39qui à l'époque, beaucoup de ces
- 00:08:41benchmarks sont sortis entre 2017 et
- 00:08:43genre 2021 étit dur à trouver avec les
- 00:08:46modèles de l'époque, mais ce sont des
- 00:08:48benchmark qui sont devenus extrêmement
- 00:08:49faciles au fur et à mesure que la
- 00:08:51capacité des modèles a augmenté. Ça,
- 00:08:53c'est un phénomène qu'on appelle la
- 00:08:54saturation. C'est-à-dire que au début un
- 00:08:56benchmark est difficile. Il y a un
- 00:08:58moment où les capacités des modèles font
- 00:09:00que les questions deviennent très
- 00:09:01simples à résoudre et du coup tout le
- 00:09:03monde atteint du 90 % performance
- 00:09:05humaine. Et dans ce cas-là, le benchmark
- 00:09:07ne sert plus à rien parce que c'est
- 00:09:08comme évaluer un lycéen sur des
- 00:09:09problèmes de 6e. Alors s'il échou, il y
- 00:09:11a un problème mais normalement tout le
- 00:09:14monde est bon. C'est pas une info
- 00:09:15passionnante quoi. Exactement. Et donc
- 00:09:17typiquement le fait que à cette époque
- 00:09:20là on voit des benchmark qui font 90 %
- 00:09:23en réalité c'est pas réjouissant. Ça
- 00:09:24veut dire que on ne savait pas mesurer
- 00:09:26l'étape d'après. En fait, c'est un peu
- 00:09:27ça en fait. Mais c'est parce que c'est
- 00:09:29très très difficile de mesurer l'étape
- 00:09:30d'après. Mesurer l'étape d'après, ça
- 00:09:32veut dire que tu as déjà anticipé
- 00:09:35quelles sont les prochaines capacités
- 00:09:36qui vont être débloquées par les
- 00:09:37modèles. Et c'est le truc cœur de
- 00:09:39l'évaluation. Ton évaluation, elle te
- 00:09:41sert en gros à trois choses. Elle te
- 00:09:43sert à regarder où est-ce que tu en es
- 00:09:45maintenant dans les capacités, ce qui va
- 00:09:47permettre à toi de choisir le meilleur
- 00:09:49modèle pour ton cas d'usage et cetera.
- 00:09:50Elle permet aux gens qui entraînent leur
- 00:09:52modèle de vérifier que leur méthode
- 00:09:53d'entraînement marche bien et après elle
- 00:09:55nous permettent à nous chercheurs du
- 00:09:57domaine de voir où est-ce qu'on va en
- 00:10:00fait. Et là on a des évaluations qui
- 00:10:01deviennent les étoiles polaires du
- 00:10:03domaine et tout le monde se regroupe
- 00:10:05autour de ça et les gens du coup font
- 00:10:07consensus. C'est ce qui s'est passé pour
- 00:10:08MMLU puis Mat puis GAA par exemple. Et
- 00:10:10mo un truc qui je pense qu'il faut qu'
- 00:10:12qu'il faut aborder qui est vachement lié
- 00:10:14au benchmark, c'est justement parce
- 00:10:16qu'il y a un tel enjeu sur la cricité du
- 00:10:19benchmark et sur à quel point cette
- 00:10:20valeur elle va influer des choix
- 00:10:22d'écosystèmes, des choix même
- 00:10:23d'industrie qui vont acheter ou pas. Ça
- 00:10:26fait que il y a des problèmes parfois de
- 00:10:28pollution. Est-ce que vous pouvez
- 00:10:30expliquer pourquoi et c'est quoi les
- 00:10:32remèdes ? Alors ce que tu appelles la
- 00:10:34pollution, c'est ce que nous on appelle
- 00:10:35la contamination. En fait, c'est quand
- 00:10:37je chercher un truc.
- 00:10:39En fait, c'est quand tes données
- 00:10:41d'évaluation se retrouvent dans le
- 00:10:43corpus d'entraînement. C'est-à-dire que
- 00:10:44ton modèle au lieu de te donner une
- 00:10:47réponse parce qu'il a réfléchi et
- 00:10:49cetera, en fait il te donne la réponse
- 00:10:51parce qu'il l'a apprise par cœur. Donc
- 00:10:52la façon dont c'est géré à l'heure
- 00:10:53actuelle c'est que tu peux faire des
- 00:10:56benchmarks qui s'actualisent au cours du
- 00:10:57temps. Donc tu as par exemple Live Code
- 00:11:00Bench
- 00:11:02récupérés d'internet au fil du temps et
- 00:11:05donc tu réévalues les modèles dessus et
- 00:11:07donc tu sais que les scores sur les
- 00:11:08problèmes qui n'existaient pas quand le
- 00:11:10modèle était là sont des scores entre
- 00:11:11guillemets valides. tu as des
- 00:11:13évaluations AIMER par exemple qui les
- 00:11:15olympiades américaines de mathématiques
- 00:11:17qui sont renouvelées tous les ans et qui
- 00:11:18sont maintenant utilisé. Tu les vois
- 00:11:19citer dans tous les papiers académiques.
- 00:11:21Donc ça c'est la première façon de
- 00:11:22faire. La deuxième façon de faire c'est
- 00:11:24ce que nous on a fait sur GA, c'est tout
- 00:11:25bêtement de pas filer une partie des
- 00:11:27réponses en fait. C'est-à-dire que si
- 00:11:29jamais une partie des réponses n'est pas
- 00:11:30publique, les gens ne peuvent pas
- 00:11:34tricher très concrètement. Et en terme
- 00:11:37de euh cas de de triche, contamination,
- 00:11:40tu as par exemple des boîtes qui à une
- 00:11:42époque sortaient leur score avec une
- 00:11:44méthodologie qui n'était pas la
- 00:11:45méthodologie de l'évaluation, ce qui
- 00:11:47leur permettait de reporter des scores
- 00:11:48qu'ils avaient complètement dopés en
- 00:11:50fait si tu veux. Mais indépendamment de
- 00:11:52ça, des cas de triche triche, nous on en
- 00:11:54a eu sur le openlm leaderboard qui était
- 00:11:57donc notre projet d'avant où en fait on
- 00:11:58avait des start-ups qui du coup avaient
- 00:12:01des rounds de financement qui
- 00:12:02dépendaient de leur score sur le
- 00:12:03leaderboard, tu vois. Euh mais en
- 00:12:05général, il se faisait épingler très
- 00:12:07vite par la communauté. Et sur GA, on a
- 00:12:10un petit tiers un/art des questions qui
- 00:12:12sont publiques et on a tout le reste,
- 00:12:14c'est privé. Donc on a nous les réponses
- 00:12:16mais personne d'autre n'y a accès et en
- 00:12:19fait c'est quand même assez coûteux même
- 00:12:20en terme de budget de refaire gaille à
- 00:12:22faut que tu aille payer des annotateurs
- 00:12:24qui vont se faire tout le process et
- 00:12:25cetera et cetera. Donc ce qu'on a eu
- 00:12:27comme tentative de triche, ça a commencé
- 00:12:30je dirais en février cette année. C'est
- 00:12:32des gens qui faisaient des soumissions
- 00:12:33bidons. Il y a eu une période où je me
- 00:12:35suis retrouvé à avoir le leaderboard,
- 00:12:36c'est moi qui gère le leaderboard du
- 00:12:37coup qui était spammé à peu près toutes
- 00:12:38les minutes par des comptes qui
- 00:12:41n'existaient pas avant sur Rugging Face
- 00:12:43qui soumettait un fichier de résultat
- 00:12:45avec des réponses plus ou moins
- 00:12:46aléatoires mais qui regardaient les
- 00:12:47évolutions de score parce qu'en fait en
- 00:12:50soumettant des trucs aléatoires, tu as
- 00:12:51quand même une petite chance que sur un
- 00:12:53malentendu ça passe. Et donc si jamais
- 00:12:55sur fichier 1 en ayant ce set de réponse
- 00:12:59là qui a été soumis, tu as plus 05, par
- 00:13:02rapport au fichier d'avant, essayer de
- 00:13:04rétroingé. Exactement. Exactement. Et
- 00:13:07donc, on a eu des soumissions de
- 00:13:08certains labos qui ont eu lieu après que
- 00:13:11le leaderboard se soit un petit peu fait
- 00:13:12spammer. J'ai retiré peut-être de
- 00:13:15semaines de soumission du leaderboard en
- 00:13:17contactant les gens dont je savais
- 00:13:18qu'ils avaient fait des soumissions à
- 00:13:19peu près correctes en disant "Écoutez
- 00:13:20les gars, on est désolé. Est-ce que vous
- 00:13:21pouvez renvoyer vos résultats ? On a
- 00:13:23retiré 2 semaines de spam. Ah c'est
- 00:13:25intéressant parce que ça ça peut
- 00:13:26paraître entre guillemets puéril mais
- 00:13:28comme tu l'as même mentionné parfois il
- 00:13:29y a des enjeux énormes en fait corrélés
- 00:13:31enjeux financiers. Ouais. Sur le choix
- 00:13:32du modèle mais j'avais pas pensé au
- 00:13:33lever de fond mais c'est évident que
- 00:13:34c'est encore plus gros comme carotte. Il
- 00:13:38y a un autre truc dont dont je veux
- 00:13:39parler c'est que justement il y a un peu
- 00:13:41toute une période où soit parce que les
- 00:13:43benchmarks étaient saturés ou parce
- 00:13:44qu'il y avait des sortes de triches ou
- 00:13:45des choses comme ça mais où il y a
- 00:13:47beaucoup de monde qui a commencé à être
- 00:13:48blasé des benchmarks. Vous voyez ce que
- 00:13:49je veux dire ? En fait, les benchmarqu
- 00:13:51ça sert à rien ça. Ça permet pas de
- 00:13:53mesurer objectivement les modèles. La
- 00:13:56preuve, il y a plein de modèles qui
- 00:13:57cartonnent en benchmark et en réalité à
- 00:14:00l'épreuve de l'intuition justement le
- 00:14:02vibe check qui sont nuls. Donc la seule
- 00:14:04chose que je don sur lequel je peux me
- 00:14:05fier, c'est moi mon expérience
- 00:14:07personnelle. Mais en fait ce qui est un
- 00:14:09peu déprimant parce que j'ai pas envie
- 00:14:10d'utiliser mon intuition. J'ai envie
- 00:14:12d'avoir le le meilleur modèle pour notre
- 00:14:13cas d'usage. Et donc il y avait un côté
- 00:14:15un peu déprimant. Qu'est-ce que vous en
- 00:14:17pensez de cet avis-là ? C'est clairement
- 00:14:18quelque chose qui a eu lieu dans
- 00:14:20l'équipe on gère l'évaluation et les
- 00:14:22leaderboard. Donc 2023, ça a été l'année
- 00:14:24des leaderboard. Tu as eu le Open LM
- 00:14:26leaderboard, tu as eu la Chatbot Arena
- 00:14:27qui est un endroit où les gens peuvent
- 00:14:29mettre des modèles en comparaison, poser
- 00:14:30une question aux deux, dire "Je préfère
- 00:14:32celui-là ou je préfère celui-ci" et
- 00:14:33cetera. On a eu beaucoup d'initiatives
- 00:14:35de ce style là qui sont arrivées. 2024,
- 00:14:37ça a été l'année du Vibe Check. Nous, ça
- 00:14:38a été un peu compliqué à gérer. On a dû
- 00:14:40actualiser le leaderboard à plusieurs
- 00:14:41reprises parce que les gens ne faisaient
- 00:14:43plus confiance au score et disaient
- 00:14:44"Mais en fait, c'est tellement facile de
- 00:14:46tricher." Donc c'est clairement quelque
- 00:14:48chose que nous on a vécu. Tu es Ouais.
- 00:14:49Tu es d'accord que ça a eu un peu lieu
- 00:14:51cette perte de confiance. En fait, il y
- 00:14:52a eu une énorme saturation. En plus, on
- 00:14:55avait beaucoup de leaderboard qui
- 00:14:56sortaient qui venaient de gens qui
- 00:14:58étaient plus ou moins de confiance parce
- 00:15:00que si jamais tu sors un leaderboard et
- 00:15:01que tu sors ton modèle en même temps et
- 00:15:02que tu dis "Ah, mon modèle il est le
- 00:15:04meilleur sur mon leaderboard, c'est
- 00:15:05fou." Bizarre, c'est incroyable, tu
- 00:15:07vois.
- 00:15:08Ce que ça veut dire c'est parce que là
- 00:15:10tu as parlé de 2024, c'est que tu dirais
- 00:15:12que c'est c'est moins le cas maintenant.
- 00:15:14Oui, 2025 est considéré un peu comme
- 00:15:16l'année des agents et évaluer un agent,
- 00:15:19ça pose plein de problématiques très
- 00:15:21différentes et c'est beaucoup plus
- 00:15:22difficile de tricher sur des évaluations
- 00:15:24d'agent parce que tu peux générer tes
- 00:15:27questions de façon à ce qu'elles soi
- 00:15:28beaucoup plus dure à gamer en fait. Et
- 00:15:29justement la suite de l'histoire c'est
- 00:15:30que ça a pris doucement doucement mais
- 00:15:33sûrement comme comme on le voit sur le
- 00:15:35graphe. Est-ce que je serais d'accord
- 00:15:36Grégoire pour que on reprenne un petit
- 00:15:38peu le le la chronologie avec plaisir et
- 00:15:40qu'on voit qu'est-ce qui s'est passé
- 00:15:41pour qu'on on ait cette courbe
- 00:15:44absolument hallucinante quand même en
- 00:15:45aussi peu de temps sur euh un GPT4 qui
- 00:15:49sait pas faire trois recherches Google
- 00:15:50et là euh des petites dings à 80 % euh
- 00:15:53je veux pas dire qu'il plie votre
- 00:15:54benchmark mais on commence à se
- 00:15:56rapprocher. Bah écoute avec plaisir. Euh
- 00:15:58donc je suis allé sur le leaderboard
- 00:16:00maintenant clémentine. J'ai récupéré à
- 00:16:02chaque instant depuis qu'on a lancé le
- 00:16:04benchmark, quel était le meilleur score
- 00:16:06et quel était le LLM derrière ce
- 00:16:08meilleur score ? Et j'ai tracer ça.
- 00:16:09Alors déjà la première chose, quand on a
- 00:16:11lancé le benchmark en 2023, c'était une
- 00:16:13année où on disait bah les LLM sature,
- 00:16:16chat GPT, c'était très bien mais le
- 00:16:18progrès ne fait que se réduire entre des
- 00:16:19versions différentes des LLM. Il va
- 00:16:21falloir faire autre chose que des
- 00:16:21Transformers et et des LLM. En fait, une
- 00:16:23première chose que ce graphique montre,
- 00:16:25c'est que quand tu mesures les bonnes
- 00:16:27choses, en tout cas d'autres choses que
- 00:16:28ce que les gens regardent, les choses
- 00:16:30saturent pas du tout. C'est dire que la
- 00:16:31courbe s'aplatit pas. Là, le progrès, il
- 00:16:33y a des périodes où il est il est
- 00:16:34linéaire. Donc ça c'est c'est le le
- 00:16:35premier truc un peu marquant. C'est pas
- 00:16:37les LLM qui saturent, c'est les
- 00:16:38benchmark. Et donc on voit qu'en an et
- 00:16:40demi, 2 ans, on est passé de 10 % de
- 00:16:42succès sur GAA à aujourd'hui jusqu'à 80
- 00:16:45% en moyenne. Il y a une deuxième
- 00:16:46information, c'est que tu vois que le
- 00:16:48progrès a pas été constant et notamment
- 00:16:50sur cette courbe, on voit qu'il y a deux
- 00:16:52phases où on a une grosse accélération.
- 00:16:54Et ce qui est très drôle, c'est que ces
- 00:16:56deux pentes, ces deux phases
- 00:16:57d'accélération, elles correspondent à
- 00:16:58des trucs qui sont passés dans la dans
- 00:16:59la communauté. Le premier, donc c'était
- 00:17:02début 2024, c'est quand les gens ont
- 00:17:04arrêté de faire comme moi et de poser
- 00:17:05des questions à chat GPT en
- 00:17:07sélectionnant les tools, mais ont mis
- 00:17:08les LLM dans ce qu'on appelle des
- 00:17:10orchestrations, du scaffolding ou des
- 00:17:11agents, il y a plein de termes qui sont
- 00:17:13en train de se consolider un peu, mais
- 00:17:14bon, à l'époque ça ça partait un peu
- 00:17:15dans tous les sens, mais ça consistait
- 00:17:17globalement à mettre ton LM dans un
- 00:17:18prompt euh où on lui donne des tools et
- 00:17:21à appeler le LLM euh plusieurs fois.
- 00:17:24jusqu'à ce que la tâche soit accomplie.
- 00:17:26Alors soit parce que tu as décidé que le
- 00:17:29LLM serait appelé un nombre n de fois 20
- 00:17:32fois, soit le LLM peut aussi décider
- 00:17:34lui-même qu'il a répondu à la question.
- 00:17:36À l'époque, on voulait faire ça en
- 00:17:37partie parce qu'on pensait que ça allait
- 00:17:39résoudre des problèmes de LLM. Euh les
- 00:17:41LLM ont des connaissances incomplètes,
- 00:17:42bah c'est pas grave, ils vont aller sur
- 00:17:43internet comme ça ils auront la bonne
- 00:17:45réponse bien actualisée. Les LLM ne
- 00:17:46savent pas bien faire des additions, bah
- 00:17:48c'est pas grave, on va leur donner une
- 00:17:49calculatrice comme ça ils pourront avoir
- 00:17:50la bonne réponse. Mais en fait ce dont
- 00:17:52je me rendais pas tout à fait compte, en
- 00:17:53tout cas moi à l'époque je l'ai dit
- 00:17:54honnêtement, c'est que certes, tu peux
- 00:17:57combler des des défauts des LLM, mais en
- 00:17:59fait tu élargis énormément le spectre
- 00:18:01des tâches que un LM peut faire et tu
- 00:18:03passes vraiment d'un d'un chat modèle à
- 00:18:05un agent. Mais on voit que c'est pas
- 00:18:07parfait. Et donc on arrive à la suite de
- 00:18:09la courbe, on a des progrès et puis
- 00:18:11arrivrive assez rapidement on arrive à
- 00:18:12un plateau. Qu'est-ce qui s'est passé là
- 00:18:13? Qu'est-ce qui se passe ? Bah les LLM
- 00:18:15euh leur donner des tools, leur les
- 00:18:18faire euh leur faire des raisonnements
- 00:18:20et des actions sur plusieurs étapes.
- 00:18:21C'était des choses qu'ils avaient un peu
- 00:18:22vu mais pas trop. Ce qui s'est vu, c'est
- 00:18:24comme tu dis, générer des poèmes,
- 00:18:25générer des articles de blog.
- 00:18:27Exactement. Avec le prompting, il se
- 00:18:28ramène à des choses qu'il a peut-être vu
- 00:18:30dans son corpus d'entraînement. Donc
- 00:18:32peut-être que d'encore plus
- 00:18:32d'entraînement, enfin même sans doute,
- 00:18:34il y avait du code, il y avait peut-être
- 00:18:35des des raisonnements, des trajectoires,
- 00:18:38mais c'est pas quelque chose sur lequel
- 00:18:40les gens appuyaient beaucoup en
- 00:18:41développement des LLM en 2023. Bon bah,
- 00:18:43qu'est-ce que tu fais dans ce cas-là ?
- 00:18:44Tu l'entraînes. Et donc moi, je pense
- 00:18:47que c'est une partie de ce qui explique
- 00:18:48la la deuxième explosion, c'est que les
- 00:18:51gens, les développeurs de modèles ont
- 00:18:53commencé à réentraîner les LLM sur les
- 00:18:56trajectoires qui produisaient avec ces
- 00:18:59orchestrations là. Bon, pourrait rentrer
- 00:19:00dans les détails, mais en fait, tu peux
- 00:19:02faire des tests euh et des évaluations
- 00:19:04sur les modèles où tu vois très bien que
- 00:19:06oui, ils ont vu des données agent. Donc
- 00:19:08ce que tu veux dire c'est que peut-être
- 00:19:09que le premier bump là ce qu'on a fait
- 00:19:11c'est que parmi les 100 tentatives pour
- 00:19:14résoudre ton batchmark, on a pris les
- 00:19:17seuls 15 qui marchaient bien mais on
- 00:19:19s'en est servi comme nouvelle donnée
- 00:19:20d'entraînement pour que le LLM a un peu
- 00:19:22plus vu des choses similaires. C'est ça
- 00:19:25tu te bout strappes et puis après quand
- 00:19:27tu l'entraînes bah la prochaine fois il
- 00:19:29peut aller un peu plus loin donc tu peux
- 00:19:30le réentraîner et cetera et cetera. Ça
- 00:19:33paraît évident quand tu le dis. Mais
- 00:19:34non, en fait ben c'est aussi la beauté
- 00:19:36de la recherche, c'est que une fois que
- 00:19:39tu as trouvé le truc qui marche, ça a
- 00:19:40l'air évident mais en vérité quand tu es
- 00:19:43dedans et quand tu es avant, ça n' ça
- 00:19:45n'était pas évident du tout. Quand on a
- 00:19:47fait GAA, on cherchait des questions
- 00:19:49difficiles et donc on est arrivé à GAA
- 00:19:51parce qu'on savait que c'était des
- 00:19:51choses que avait pas mémorisé, qu'il
- 00:19:53fallait internet et cetera. Ouais, la
- 00:19:55vision agent, elle était pas encore tout
- 00:19:56à fait complète à l'époque. Et
- 00:19:57typiquement, il y a à ce momentl on
- 00:19:59commence aussi à entendre parler des
- 00:20:00fameux modèles de raisonnement. Ouais,
- 00:20:03pareil pour quelqu'un qui n'a pas
- 00:20:04forcément suivi, qui a entendu parler de
- 00:20:06O3, les dips évidemment dips R1 que tout
- 00:20:09le monde connaîtra. C'est quoi cette
- 00:20:11histoire de raisonnement et pourquoi ça
- 00:20:12peut aider ? Quand on a commencé à voir
- 00:20:14des modèles de raisonnement, on l'
- 00:20:15expliquait de la façon suivante, c'est
- 00:20:16des modèles qui réfléchissent avant de
- 00:20:18parler, qui ont faire des des calculs en
- 00:20:20interne pour se donner un peu plus de
- 00:20:22chance de d'arriver à la bonne réponse
- 00:20:23avant de te donner toi la réponse
- 00:20:25finale. Donc ça c'est qualitativement,
- 00:20:26ça correspond à peu près à ce qui est
- 00:20:28fait.
- 00:20:29Fondamentalement, quand tu poses une
- 00:20:30question à ton modèle, ton LM répond en
- 00:20:33général instantanément et va il est
- 00:20:34entraîné pour te donner directement la
- 00:20:36réponse. Mais tu peux aussi avoir envie
- 00:20:38de mettre un peu plus de compute dans
- 00:20:41ton modèle, lui donner un peu de temps
- 00:20:42pour qu'il fasse des calculs pour
- 00:20:44arriver à cette bonne réponse. Le
- 00:20:45raisonnement, ça englobe beaucoup de
- 00:20:47techniques différentes. Une technique
- 00:20:48très simple, c'est d'appeler 32 fois le
- 00:20:50modèle sur la même question et au lieu
- 00:20:52de retourner la première réponse, bah tu
- 00:20:53retournes la réponse la plus compte
- 00:20:55majority. Ah oui, dans la plus
- 00:20:56fréquente, tu échanges de l'énergie
- 00:20:59enfin de vo de la puissance de calcul
- 00:21:01contre une un résultat plus sûr du coup.
- 00:21:03Exactement. Est-ce que tu penses que ça
- 00:21:04a pu participer à sur le cas de GAA au
- 00:21:07fait que les performances grimpent aussi
- 00:21:09? Ouais, sans doute. Pourquoi ? Parce
- 00:21:10que ce que j'ai fait sur mon graphique,
- 00:21:12c'est que j'ai aussi à chaque score,
- 00:21:14j'ai associé un un modèle qui était
- 00:21:16derrière l'orchestration. Au début du
- 00:21:18graphe, tu vois que c'est toujours GPT4
- 00:21:21le moteur GPT4 turbo, GPT4 et puis au
- 00:21:25moment des au moment de l'inflexion,
- 00:21:27c'est aussi le moment où one le modèle
- 00:21:29de reasoning d'op release. Donc je sais
- 00:21:31pas septembre, octobre, novembre 2024.
- 00:21:34Bah, tu vois que dans les modèles euh
- 00:21:35qui prennent le State of the Art, qui
- 00:21:37ont le meilleur score, on commence à
- 00:21:39voir des resoning modèles. Donc, tu as
- 00:21:40one, tu as aussi des modèles de la boîte
- 00:21:42concurrente en tropique qui qui intègre
- 00:21:44un peu de reasoning. Et donc euh bah
- 00:21:46empiriquement effectivement, on a
- 00:21:47l'impression que parce que l'explosion
- 00:21:49coïncide avec le la release d'oper de O1
- 00:21:51et des modèles reasoning et parce que
- 00:21:53dans les meilleurs modèles on voit des
- 00:21:54modèles reasoning, on peut penser que
- 00:21:56c'est la deuxième partie de la réponse
- 00:21:57de ce deuxième boom. Moi, il y a j'ai
- 00:21:59l'impression enfin il y a un truc dont
- 00:22:01dont je voudrais parler après, c'est que
- 00:22:02dans cette donc dans cette trajectoire,
- 00:22:04tu nous as expliqué, il y avait des
- 00:22:05orchestrateurs au début qui avait un
- 00:22:07côté très euh manuel, c'est-à-dire que
- 00:22:09il y a un florilège d'outils euh et de
- 00:22:12tout un écosystème qui s'est créé autour
- 00:22:15à la fois des de l'inférence de le fait
- 00:22:16de faire marcher des modèles mais même
- 00:22:18de leur orquest estration justement. Et
- 00:22:21très souvent c'est c'est fascinant parce
- 00:22:23que tu veux pas dire qu'on met la
- 00:22:24charrue avant les bœ mais c'est qu'on
- 00:22:26construit des usines à gaz parfois sur
- 00:22:30des modèles qui deviennent un peu
- 00:22:32obsolètes de temps en temps dès que le
- 00:22:34modèle suin arrive. Mais c'est pas
- 00:22:35grave, c'est intéressant mais dans les
- 00:22:36exemples que j'ai en tête, il y a des CR
- 00:22:38ou des choses comme ça où c'est une
- 00:22:39magnifique machine mais le truc c'est un
- 00:22:41bordel avec des équipes de multiagents
- 00:22:43qui discutent entre eux et cetera. Et
- 00:22:45j'ai l'impression que là très récemment,
- 00:22:47là on est en train d'arriver euh on a vu
- 00:22:49euh à des très bons scores sur GAA que
- 00:22:52euh les tout derniers modèles, ceux qui
- 00:22:55sont vraiment tout en haut de la courbe
- 00:22:56justement, c'est des systèmes où il y a
- 00:22:57moins cette orchestration manuelle
- 00:22:59justement et si j'ai bien compris, c'est
- 00:23:01entre autres grâce au reinforcement
- 00:23:02learning. Est-ce que tu peux nous
- 00:23:04expliquer un petit peu Ouais. qu'est-ce
- 00:23:05que qu'est-ce que c'est que cette
- 00:23:07histoire de reinforcement learning et et
- 00:23:09pourquoi ça arrive maintenant et pas
- 00:23:10avant ? Il y a deux parties à ta
- 00:23:12question. Ma vision de la recherche sur
- 00:23:14l'LLM et en général, c'est que tu dois
- 00:23:17en permanence euh trouver le point
- 00:23:19d'équilibre entre euh, tu vois, le
- 00:23:21contraindre trop euh et l'empêcher euh
- 00:23:24de faire ce qui sait bien faire et
- 00:23:25l'aider. Et donc euh par exemple, quand
- 00:23:27tu tu veux apprendre un modèle euh être
- 00:23:30bon sur une certaine tâche, tu veux
- 00:23:32avoir envie de modifier l'architecture
- 00:23:33du modèle pour que ça corresponde
- 00:23:34parfaitement à ton problème. Par
- 00:23:35exemple, quand on travait sur les
- 00:23:36problèmes de sciences et de molécules,
- 00:23:37on avait tendance à intégrer des
- 00:23:39connaissances physiques dans
- 00:23:40l'architecture pour aider le modèle, tu
- 00:23:42vois. Et ça quand tu as pas beaucoup de
- 00:23:44données et que ton modèle est pas
- 00:23:45terrible, ça l'aide énormément. Puis
- 00:23:47après, plus tu progresses dans le
- 00:23:48domaine et plus tu acquères des données,
- 00:23:50plus tu te rends compte qu'en fait en
- 00:23:51enlevant une par une ces petites
- 00:23:53béquilles euh ton modèle devient
- 00:23:56meilleur. Mais tout l'art, c'est de
- 00:23:57savoir quand les enlever. Et donc pour
- 00:23:59moi, le l'orchestration, le scaffolding,
- 00:24:00ça rentre potentiellement dans cette
- 00:24:01catégorie là de technique où bah au
- 00:24:03début, tu dois aider un peu le modèle
- 00:24:05pour avancer dans ta recherche, pour
- 00:24:07commencer à créer des données qui vont
- 00:24:08améliorer ton modèle. Puis en fait, une
- 00:24:10fois que ton modèle a suffisamment
- 00:24:12progressé, tu te rends compte que
- 00:24:13revenir à un truc simple, ça aide le
- 00:24:16modèle. Ça l'aide parce que le modèle
- 00:24:17apprend très bien tout seul une fois
- 00:24:18qu'il a beaucoup donné. Ça aide aussi
- 00:24:20parce que il faut être aussi humble,
- 00:24:22c'est ça, tu t'enlèves des facteurs
- 00:24:23d'erreur quoi. Plus tu aides le modèle,
- 00:24:24plus tu as des chances de faire des
- 00:24:26petites bêtises dans ton code ou
- 00:24:27ailleurs. Donc simplifier les choses, ça
- 00:24:29ça t'enlève des chances de faire des
- 00:24:31erreurs. Tout comme mettons tu avais
- 00:24:33écrit un prompt qui marchait super bien
- 00:24:35avec un ancien modèle. On le disait à
- 00:24:36l'époque, c'était dans les conseils
- 00:24:37qu'il fallait être super précis, donner
- 00:24:39énormément de d'informations, de
- 00:24:41détails, de conseils au modèle pour
- 00:24:43obtenir le meilleur résultat. Et
- 00:24:45aujourd'hui, ce que je trouve
- 00:24:46intéressant, c'est quand on regarde les
- 00:24:47postes d'annonce, les blog posts et
- 00:24:48cetera de ou les documents techniques
- 00:24:50des entreprises qui sont les plus à la
- 00:24:51pointe, il y a récemment plutôt des
- 00:24:54instructions de dire "Non mais en fait,
- 00:24:55tentez de simplifier vos justement vos
- 00:24:58promptes." C'estàd que ce promte que tu
- 00:24:59as écrit il y a il y a 2 ans hyper hyper
- 00:25:02poussé, hyper avancé, essae de le
- 00:25:04simplifier, de donner moins de béquille,
- 00:25:05de le laisser plus libre entre
- 00:25:06guillemets justement et en fait vous
- 00:25:08pourriez être surpris parce que le
- 00:25:10modèle a a progressé depuis quoi ?
- 00:25:11Ouais, exactement. Ça c'était le la
- 00:25:13première partie de ma réponse. Première
- 00:25:14partie de la réponse, c'est ça. Ensuite,
- 00:25:15il y a le reinforcement learning. Alors,
- 00:25:16malheureusement, je vais pas avoir
- 00:25:17toutes les réponses pour toi euh parce
- 00:25:19que euh je les ai pas toutes moi-même.
- 00:25:21Euh c'est des questions de recherche
- 00:25:22encore ouvertes et puis il y en a
- 00:25:23d'autres que je peux pas te donner. Mais
- 00:25:24en fait, il y a une façon assez
- 00:25:26naturelle de d'aborder la chose, c'est
- 00:25:28que comme les modèles deviennent de plus
- 00:25:30en plus forts, il y a un moment où en
- 00:25:31fait pour beaucoup de tâches, ils
- 00:25:33deviennent meilleurs que des humains. On
- 00:25:34utilisait beaucoup des annotateurs pour
- 00:25:36entraîner les modèles. Donc par exemple,
- 00:25:37il y a 2 3 ans, on utilisait des
- 00:25:38annotateurs pour créer des petites
- 00:25:40tâches pour apprendre au modèle à suivre
- 00:25:41des instructions, à traduire des textes,
- 00:25:43des poèmes et cetera. Ensuite, on a fait
- 00:25:45du RLHF où comme écrire un poème, c'est
- 00:25:48quand même un peu compliqué. On
- 00:25:49demandait aux annotateurs de choisir
- 00:25:50entre deux poèmes. Bon bah aujourd'hui,
- 00:25:52quand tu veux annoter pour une tâche
- 00:25:54agent, c'est compliqué, ça coûte cher
- 00:25:56parce que qu'est-ce qu'il faut faire ?
- 00:25:58Tu prends une question GAA, est-ce que
- 00:26:00tu as demandé à un annotateur d'écrire
- 00:26:01toute la trajectoire étape par étape
- 00:26:04avec le contenu de ce que le LLM est
- 00:26:06censé mettre dans l'outil et puis le
- 00:26:08retour de l'outil ? C'est compliqué.
- 00:26:09Est-ce que tu vas demander à
- 00:26:10l'annotateur de préférer deux
- 00:26:11trajectoires ? Ouais, mais sauf que
- 00:26:13comparer de trajectoires, c'est quand
- 00:26:14même pas facile non plus. Donc en fait,
- 00:26:16il y a une alternative qui qui émerge,
- 00:26:18c'est que tu peux aussi laisser le
- 00:26:20modèle trouver sa propre solution. Tu
- 00:26:22prends une question, une réponse, un peu
- 00:26:23comme GAA en fait, parce que les
- 00:26:25questions de GA, elles sont toutes
- 00:26:26vérifiables. Tu laisses le LLM jouer,
- 00:26:28tenter plusieurs fois de trouver la
- 00:26:29bonne réponse et puis quand tu as
- 00:26:31quelques trajectoires qui sont tombées
- 00:26:33sur la bonne réponse, étant donné la
- 00:26:34complexité de la question, tu peux dire
- 00:26:36la trajectoire moralement, elle doit
- 00:26:38être correcte quoi, elle doit être
- 00:26:39intéressante et donc tu la gardes et tu
- 00:26:40peux utiliser comme data d'entraînement.
- 00:26:42En fait, tu le laisses lui-même tester.
- 00:26:44Ouais. Et voilà. Se se balader jusqu'à
- 00:26:47ce que ça marche quoi. Exactement. Et
- 00:26:48parfois tu es surpris parce que tu
- 00:26:50trouves parfois des trajectoires assez
- 00:26:53dingues que LLM a trouvé par lui-même
- 00:26:54que ton annotateur aurait aurait jamais
- 00:26:56fait. C'est un truc qui était je pense à
- 00:26:58l'époque pas si évident que ça. Nos
- 00:27:00annotateurs ont eu beaucoup de mal. Je
- 00:27:02pense que à l'époque on travait avec le
- 00:27:04CEO de la boîte, je pense qu'il nous
- 00:27:06détestait
- 00:27:08parce qu'en fait on leur faisait
- 00:27:09reprendre les questions plusieurs fois
- 00:27:10jusqu'à ce que deux trois personnes,
- 00:27:12parfois quatre pour les plus durs
- 00:27:13tombent toutes sur la même réponse. Donc
- 00:27:15en fait une fois que tu as ça, bon bah
- 00:27:18tu as ramené un problème de la vie
- 00:27:20réelle plus ou moins parce que même les
- 00:27:21questions de ga sont parfois un peu non
- 00:27:23naturelles, mais un truc que tu arrives
- 00:27:25à vérifier. Et donc là, tu peux
- 00:27:26appliquer des approches du style essayer
- 00:27:28plusieurs fois jusqu'à ce que ton modèle
- 00:27:29réussisse. Et typiquement, de ce que
- 00:27:31j'ai compris, c'est plutôt récent.
- 00:27:32C'estd que aujourd'hui, c'est un sujet
- 00:27:35plutôt chaud dans toutes les équipes les
- 00:27:37plus à la pente. Et je sais notamment
- 00:27:39que chez chez Open AI, la la fameuse
- 00:27:41fonctionnalité dont je parlais, type
- 00:27:42research, c'est O3, donc leur modèle de
- 00:27:45raisonnement qu'ils ont justement fine
- 00:27:47tuné avec du first learning sur des
- 00:27:51tâches relativement complexes
- 00:27:52d'exploration de l'internet. C'est un
- 00:27:54truc dont les les résultats sont
- 00:27:56clairement visibles dès maintenant.
- 00:27:58Justement là, ce qui est intéressant,
- 00:27:59c'est que on arrive à ces 80 % à peu
- 00:28:01près. Est-ce que vous ça vous fait ça
- 00:28:03vous fait flipper ? Votre votre
- 00:28:04benchmark est est-il bientôt saturé ou
- 00:28:06pas ? Le niveau 1, oui, clairement. Le
- 00:28:09niveau 2, on n'est pas très loin. Le
- 00:28:10niveau 3, par contre, on est qu'à 60 %.
- 00:28:13et on a commencé à atteindre un petit
- 00:28:15plateau sur le niveau 3. Je pense que
- 00:28:16les questions du niveau 3 sont
- 00:28:18suffisamment difficiles pour qu'on ait
- 00:28:19pas encore à l'heure actuelle la gamme
- 00:28:21d'outils qui permet de les accomplir
- 00:28:23vraiment efficacement. Donc le niveau 3
- 00:28:25va encore tenir 6 mois, j'espère.
- 00:28:28J'espère. OK. Ça veut dire que c'est
- 00:28:29intéressant, c'est qu'on est plutôt en
- 00:28:30fin du cycle de vie a priori GA CL de
- 00:28:33GAA. Et alors la question c'est quoi les
- 00:28:35les benchmarks d'après qui vont mesurer
- 00:28:38justement ces modèles qui savent qui
- 00:28:39savent faire du GAA et justement est-ce
- 00:28:41queils existent ces ces benchmarks déjà
- 00:28:42? Il y a une partie des benchmarks qui
- 00:28:44existent à l'heure actuelle. Typiquement
- 00:28:45Brow Comp qui a été sorti par Open AI,
- 00:28:47c'est une version 2 de GAA. Eux au lieu
- 00:28:50de demander à leurs annotateurs de
- 00:28:52réfléchir à leurs questions étape par
- 00:28:54étape et de rajouter des étapes de
- 00:28:55complexité, ils sont partis dans l'autre
- 00:28:57sens. Ils ont dit, "Si on veut que la
- 00:28:59réponse ce soit ça, comment est-ce qu'on
- 00:29:01doit écrire la question pour qu'elle
- 00:29:03soit suffisamment compliquée pour
- 00:29:04nécessiter un grand nombre d'étapes ?"
- 00:29:06Ah, par exemple, si tu veux arriver à le
- 00:29:09papier machin,
- 00:29:11comment est-ce que tu décomposes
- 00:29:13l'identité de cet objet pour que ce soit
- 00:29:15dur à trouver ? Par exemple, le premier
- 00:29:17auteur a fait telle université, le 4è
- 00:29:19auteur a fait telle autre université et
- 00:29:21a habité là pendant ses études et le
- 00:29:23papier a été soumis à telle conférence.
- 00:29:25Et donc en partant de la fin entre
- 00:29:28guillemets, ils ont construit des
- 00:29:29questions qui ont une complexité qui est
- 00:29:30similaire à celle de GA. Le petit
- 00:29:32problème de ce benchmark là, c'est
- 00:29:33qu'ils n'ont pas de garantie de solution
- 00:29:35unique. Ah oui, parce qu'après ils ont
- 00:29:36mesuré le temps que prenaient des
- 00:29:38annotateurs à accomplir les questions.
- 00:29:40Dans quelque chose comme 70 ou 80 % des
- 00:29:42cas, les annotateurs abandonnent après 2
- 00:29:44heures. Donc ils n'ont pas de garantie.
- 00:29:47Psychopathe continuez. C'est exactement
- 00:29:50ça. En fait, ils n'ont pas de garantie
- 00:29:52que les l'espace des solutions soit
- 00:29:53unique. Hm. Alors que GAA, nous on sait
- 00:29:56de façon certaine que toutes nos
- 00:29:57questions sont faisables par des
- 00:29:59humains, mais leurs questions sont
- 00:30:01globalement, je pense plus complexe.
- 00:30:03GAA, il y a aussi le fait que GAA, c'est
- 00:30:05l'internet de 2023 qui a un petit peu
- 00:30:07changé. On a essayé de se focaliser à
- 00:30:09l'époque sur des sources qui
- 00:30:10changeraient peu dans le temps,
- 00:30:11Wikipédia, les sites de recherche
- 00:30:13académique et cetera, mais il y a quand
- 00:30:15même probablement des références qui
- 00:30:16sont cassées. Browcom, ils sont sortis
- 00:30:18il y a quelques mois et donc Browcom,
- 00:30:20c'est un bon euh GAA V1.5 5 quoi
- 00:30:23concrètement, c'est un peu le même type
- 00:30:25de question. Ça demande aussi un certain
- 00:30:28nombre d'étapes de raisonnement, un peu
- 00:30:29plus de recherche et je dirais un petit
- 00:30:31peu moins d'outils de ce que j'ai pu
- 00:30:32voir, mais globalement on est sur la
- 00:30:34vraiment la ligne philosophique de GAA.
- 00:30:36OK. Donc ça c'est Brosc du coup.
- 00:30:38Exactement. Et là, on est sur des
- 00:30:39benchmarks qui sont des benchmarks en
- 00:30:42lecture du monde. Donc, c'est des
- 00:30:43benchmarks qui vont chercher de
- 00:30:44l'information et qui te donne une
- 00:30:47réponse globalement unique. Après, tu as
- 00:30:49des benchmarks qui existent aussi qui
- 00:30:52sont des benchmarks pour des tâches
- 00:30:53d'assistance scientifique. Et ça, c'est
- 00:30:55un peu la version 2 des benchmarks de
- 00:30:57code. Un benchmark de code, tu demandes
- 00:30:59à un modèle de générer du code. Si
- 00:31:01jamais le code passe des tests
- 00:31:04informatiques, en fait, c'est bon. Si
- 00:31:06jamais ça ne passe pas les tests
- 00:31:07informatiques, c'est pas bon. La version
- 00:31:09suivante, c'est est-ce que des modèles
- 00:31:13peuvent résoudre des tâches
- 00:31:15scientifiques pour toi ? Il y a trois
- 00:31:16benchmarks qui sont assez chouettes
- 00:31:18là-dedans. Tu en as un qui s'appelle
- 00:31:19Dapstep, c'est de l'analyse de données,
- 00:31:22c'est-à-dire que tu files tout un
- 00:31:24ensemble de jeux de données structurés
- 00:31:26et tu demandes au modèle de faire de
- 00:31:29l'analyse vraiment précise de donc par
- 00:31:31exemple, tu lui donnes un CSV de 50 Go
- 00:31:35de d'une entreprise ou des documents
- 00:31:37financiers, des trucs. Ouais, c'est
- 00:31:38exactement ça. Et tu poses une question
- 00:31:40ultra sombre. Hm hm. Il y a
- 00:31:41littéralement des questions du genre sur
- 00:31:43le vendeur machin, si jamais ils avaient
- 00:31:45passé leur côte de telle valeur à telle
- 00:31:48valeur, de combien est-ce que les taux
- 00:31:49de change auraient changé en 2023 à
- 00:31:52partir de 7 XL de X000 ligne. Et là, tu
- 00:31:55as besoin de 15 étapes de faire des
- 00:31:57requêtes très complexes SQL ou des
- 00:31:59choses comme ça. C'est ça. Déjà, c'est
- 00:32:00génial parce que justement quand on fait
- 00:32:02la comparaison entre peut-être des vieux
- 00:32:03benchmark et des trucs comme ça,
- 00:32:04franchement euh ça avoir des LLM qui euh
- 00:32:06connaissent euh Wikipédia par cœur, si
- 00:32:09c'est pas c'est sympa, mais dans la
- 00:32:10vraie dans la vraie vie, en fait, un peu
- 00:32:12tout le monde s'en fout, quoi. Euh alors
- 00:32:14que là, ce qui c'est génial parce que
- 00:32:15c'est des usages réels. Ouais. Et on va
- 00:32:18pouvoir mesurer très concrètement la
- 00:32:21productivité en fait, c'est comment ces
- 00:32:22modèles vont vraiment être utilisés.
- 00:32:24C'est ça, c'est génial. Ouais. Et c'est
- 00:32:26assez intéressant parce que ce que tu
- 00:32:27euh pointes, c'est aussi un gros
- 00:32:28changement de paradigme dans le monde de
- 00:32:30l'évaluation. Avant on disait pour
- 00:32:32évaluer les capacités d'un modèle, on va
- 00:32:33évaluer les capacités de connaissance.
- 00:32:35Donc MMLU c'était de la connaissance. Et
- 00:32:37après, tu as eu des gros benchmarks
- 00:32:38comme GPQA ou euh HLE. HLE c'est
- 00:32:41Humanities Last Exam. C'est des
- 00:32:43questions ultra pointu niveau thèse en
- 00:32:47linguistique, en bio, en chimie. Je veux
- 00:32:49dire, c'est horrible. Tu lis la
- 00:32:51question, tu comprends pas 50 % des mots
- 00:32:53? Tant que tu en parles, je propose
- 00:32:54qu'on aille regarder le site justement
- 00:32:56parce qu'il est assez rigolo justement
- 00:32:57pour don les questions, elles sont
- 00:32:58voilà, elles sont incroyables. Ouais,
- 00:33:00celle-là c'est ma préférée. Est génial.
- 00:33:02Voici une représentation d'une
- 00:33:03inscription romaine initialement
- 00:33:05découverte sur une pierre tombale.
- 00:33:06Fournissez une traduction du texte en
- 00:33:08palmiren. La translitération est
- 00:33:10fournie. Et la la question d'un côté est
- 00:33:12incroyable. Celle-là, je n'ai rien
- 00:33:14compris la traduction. C'est les
- 00:33:15colibris de l'ordre des apodiformes ont
- 00:33:17une caractéristique unique. Ils
- 00:33:18possèdent un os oval bilatéral.
- 00:33:20sésamoïdes situé dans la partie
- 00:33:22codolatérale de l'aponévrose croisée
- 00:33:24élargie de l'insertion du muscle
- 00:33:25dépresseur de la queue. Combien de
- 00:33:27tendons appariés sont soutenu par cet os
- 00:33:29sésamoïde ? C'est pour ça que ça
- 00:33:31s'appelle Humanities last exam, c'est
- 00:33:33que après après celui-là exactement tu
- 00:33:36as fini le game normalement. Non mais
- 00:33:37c'est ça mais ceci mais c'est
- 00:33:38intéressant parce que là ça mesure pas
- 00:33:40la même chose en fait. Ouais. Et ça ce
- 00:33:41qui est intéressant c'est que du coup
- 00:33:42c'est des questions de connaissance. Et
- 00:33:44le gros problème de ce genre euh
- 00:33:47d'évales, c'est que c'est invérifiable
- 00:33:49par un humain normal. Personne ne peut
- 00:33:51valider la bonne réponse mise à part le
- 00:33:53mec expert en colibri ou en linguistique
- 00:33:55qui a soumis la question, je dire et du
- 00:33:57coup ça donne des benchmarks qui
- 00:33:59mesurent des choses impossibles à
- 00:34:00valider par l'humain, ce qui est un
- 00:34:02problème parce qu'en fait on veut
- 00:34:04valider au fur et à mesure, on veut
- 00:34:05pouvoir avoir confiance en le système en
- 00:34:06fait si tu veux. Et ensuite ça mesure
- 00:34:09des choses dont tout le monde se fout.
- 00:34:11Est-ce que pour faire l'avocat du
- 00:34:13diable, vas-y. Est-ce que justement sur
- 00:34:14F exam les questions qu'on a vu, tu
- 00:34:17pourrais te dire "OK, il y a une
- 00:34:18personne qui peut le faire de tête
- 00:34:19éventuellement ce truclou mais une autre
- 00:34:21manière de craquer le problème qui est
- 00:34:22peut-être encore plus probable, c'est
- 00:34:24qu'en fait tu as un excellent outil de
- 00:34:26recherche approfondie. Exactement. et
- 00:34:28que tu vas pouvoir aller très loin
- 00:34:29trouver la documentation de la
- 00:34:31traduction de cette langue obscure,
- 00:34:32scanner la page avec un de la vision
- 00:34:35enfin et trouver des détails. Mais c'est
- 00:34:37exactement ça le point en fait, c'est
- 00:34:38que du coup avant les gens mesuraient de
- 00:34:39la connaissance pure et maintenant on
- 00:34:41est en train de transitionner parce que
- 00:34:43mesurer de la connaissance pure si
- 00:34:44jamais tu y as accès via un outil super
- 00:34:47puissant, ça te dit pas grand-chose. Ce
- 00:34:49que tu veux c'est mesurer vraiment de la
- 00:34:53complexité dans le raisonnement sur des
- 00:34:54tâches réelles qui vont être utiles aux
- 00:34:56humains. Donc c'est précisément là que
- 00:34:58on transitionne de benchmark de
- 00:35:01connaissance à la GPQA, c'est la même
- 00:35:02chose mais pour des questions de thèse
- 00:35:04en math physique bio ou à la Humanity
- 00:35:07Last Exam vers du GA du DAP Steep. Tu as
- 00:35:11Code c'est des problématiques
- 00:35:13logicielles. Paper Bench c'est open AI.
- 00:35:15Il file un papier et le LLM doit générer
- 00:35:18le code de machine learning qui prouve
- 00:35:21ce qui est expliqué dans le papier
- 00:35:22scientifique et c'est décomposé en plein
- 00:35:24de petites étapes et cetera. Il y a pas
- 00:35:26mal de de benchmarks qui mesurent en
- 00:35:28fait ce genre de choses appliquées à des
- 00:35:31problèmes qui vont être utiles pour des
- 00:35:33vrais gens. En fait, il y a un autre
- 00:35:34truc que les gens font, c'est
- 00:35:36l'évaluation synthétique sur leurs
- 00:35:37propres données. Nous, on a un truc qui
- 00:35:39s'appelle yourbench par exemple et ça
- 00:35:40prend des LLM qui vont extraire des
- 00:35:43questions et des données. Tu files tes
- 00:35:45données à toi, ça te génère un benchmark
- 00:35:47qui est de la questionréponse sur le
- 00:35:50type de données toi qui t'intéresse. Ça
- 00:35:52peut être du légal, ça peut être du
- 00:35:53médical, ça peut être ce que tu veux. Et
- 00:35:55donc tu as ton benchmark qui te permet
- 00:35:56de juger les qualités des modèles sur
- 00:35:59ton cas d'usage. Par exemple, si jamais
- 00:36:01tu veux savoir quel est le meilleur
- 00:36:02modèle pour t'aider à écrire des
- 00:36:03requêtes SQL, bah tu peux prendre la doc
- 00:36:05de SQL, te faire un benchmark à partir
- 00:36:07de ça qui va être sur les questions qui
- 00:36:09toi t'intéressent et euh après tester
- 00:36:12les allez 10 top modèles du moment et
- 00:36:15voir lequel fonctionne mieux pour toi.
- 00:36:17Ça c'est vraiment intéressant parce que
- 00:36:19effectivement c'est un concept que j'ai
- 00:36:20déjà entendu que à la fin le mieux c'est
- 00:36:22ton propre benchmark et l'avantage c'est
- 00:36:24que là pour le coup c'est des données
- 00:36:25qui seront qui vont pas liquer
- 00:36:26publiquement. Tu les as maîtrises, tu
- 00:36:29sais que c'est pas bullshit. Exact. Tout
- 00:36:30à fait et ça peut aussi te permettre de
- 00:36:31gagner du temps en faisant un premier
- 00:36:33jeu d'évaluation. Tu le fais valider par
- 00:36:35tes experts en interne et ça te fait
- 00:36:36après du coup ton petit jeu en interne
- 00:36:39que tu réutiliseras jusqu'à ce que les
- 00:36:40modèles soient suffisamment bon que ta
- 00:36:42mini éval soit saturée aussi et tu
- 00:36:44recommences.
- 00:36:44Très cool. On a parlé des successeurs de
- 00:36:47GAA. Est-ce que vous vous bossez sur des
- 00:36:50trucs sur la suite ? Bah moi pareil, je
- 00:36:52peux pas vraiment en parler mais je
- 00:36:55encore une fois quand tu quand tu
- 00:36:56développes, on développe des modèles et
- 00:36:57quand tu développes des modèles, tu dois
- 00:36:59avoir une boussole et si n'as pas de
- 00:37:00boussole, tu ne peux rien faire. Donc
- 00:37:02c'est des questions qu'on se pose. OK.
- 00:37:03Peut-être qu'on peut dire que ça fait 6
- 00:37:05mois qu'on fait une collaboration et que
- 00:37:07peut-être que c'est très très lié au
- 00:37:08thème qu'on vient de voir et que si
- 00:37:11jamais un jour ça sort, peut-être
- 00:37:14peut-être qu'on en reparlerait.
- 00:37:15Peut-être qu'on en reparlera.
- 00:37:16Exactement. Si ça vous a intéressé, je
- 00:37:18vous conseille vivement notre interview
- 00:37:20d'une chercheuse en IA qui nous a
- 00:37:22présenté une question assez peu abordée
- 00:37:24et pourtant préoccupante de
- 00:37:26l'auto-empoisonnement des IA et de ce
- 00:37:28qui pourrait arriver dans quelques
- 00:37:30années. C'était dans cette vidéo.
- IA
- OpenAI
- Deep Research
- GAA
- benchmark
- modèles de raisonnement
- évaluation
- reinforcement learning
- tâches complexes
- analyse de données