Studie: ChatGPT schlägt ÄRZTE um 16%?!

00:24:28
https://www.youtube.com/watch?v=swf2lCMRw6Q

Résumé

TLDREine aktuelle Studie untersucht, wie gut Ärzte im Vergleich zu großen Sprachmodellen (Large Language Model, LLM) bei der Diagnosestellung performen. Es zeigt sich, dass LLMs – insbesondere wenn sie optimal durch sogenanntes Prompt Engineering genutzt werden – in der Lage sind, effizient und in manchen Fällen sogar besser als Ärzte selbst Diagnosen zu stellen. In der Studie wurden Ärzte in Gruppen aufgeteilt - solche, die ein LLM nutzen durften und diejenigen, die keines nutzen durften. Außerdem gab es eine Kontrollgruppe, die ausschließlich die KI zum Diagnostizieren einsetzte. Dabei ergab sich, dass Ärzte mit LLMs genauso gut abschnitten wie ohne, wenn sie wenig Erfahrung mit der Anwendung hatten. Interessanterweise führte der alleinige Einsatz der KI zu den besten Ergebnissen - teils bedingt durch die Optimierung der Eingabeprompten durch Experten, bekannt als Prompt Engineering. Auch wenn die KI in dieser experimentellen Umgebung sehr gut abschnitt, ersetzt sie nicht den menschlichen Arzt, sondern bietet Potenzial zur Unterstützung. Datenschutz und die Integration elektronischer Gesundheitsakten sind weitere entscheidende Faktoren für den Einsatz solcher Systeme.

A retenir

  • 🤖 Die Studie untersucht den Einfluss von KI auf ärztliche Diagnosen.
  • 👨‍⚕️ Ärzte mit LLMs performten ähnlich wie ohne LLMs.
  • 📈 Die KI alleine erzielte die besten Diagnose-Ergebnisse.
  • 🔍 Prompt Engineering optimierte die KI-Nutzung erheblich.
  • 🧑‍⚕️ Ärzte werden durch LLMs nicht ersetzt, sondern unterstützt.
  • 📊 KI verwendete Daten unbekannter Patientenfälle für Training.
  • 🗂️ Elektronische Patientenakten können Diagnosen verbessern.
  • 🔒 Datenschutz ist ein wichtiges Thema bei KI-Nutzung.
  • 📉 Früheres KI-Modell war weniger leistungsfähig als aktuelle.
  • ⏱️ Zeitlimit von 10 Minuten für Diagnosen in der Studie.

Chronologie

  • 00:00:00 - 00:05:00

    Die Studie untersucht den Einfluss großer Sprachmodelle wie ChatGPT auf die medizinische Diagnostik. Anstatt Schulungen für Ärzte zu evaluieren, zeigte die Studie unerwartet, dass Ärzte, die solche Modelle nutzten, teilweise gleich oder weniger erfolgreich waren als die Modelle selbst. In der Studie wurden 51 Ärzte in Gruppen aufgeteilt: Einige durften ein Sprachmodell nutzen, andere nicht, und eine Kontrollgruppe durfte nur die KI verwenden. Die Beurteilung der Ergebnisse erfolgte durch eine unabhängige Expertengruppe.

  • 00:05:00 - 00:10:00

    Obwohl die Ärzte, die ein Sprachmodell nutzen durften, ähnliche Ergebnisse erzielten wie jene, die keins verwendeten, zeigte die Studie, dass ausschließlich das Sprachmodell bessere Ergebnisse lieferte. Allerdings wird betont, dass man weiterhin definitiv Ärzte konsultieren sollte, da sie unverzichtbare Informationen und Kontextwissen mit einbringen, die ein KI-Modell momentan nicht ersetzen kann.

  • 00:10:00 - 00:15:00

    Zudem beeinflussen KI-Tools wie ChatGPT den Arbeitsalltag und die Produktivität mit Tools wie Bitrix24. Diese Tools können helfen, den Workflow effizienter zu gestalten. Aber es ist wichtig, nicht komplett auf Ärzte zu verzichten, obwohl KI nützlich ist, vor allem in unterbesetzten ländlichen Gebieten. Der Bericht erwähnt auch die Bedeutung von bewusster und angepasster Nutzung solcher Technologien in der Medizin.

  • 00:15:00 - 00:24:28

    Der Bericht führt weiter aus, dass die Effektivität der KI-Modellnutzung davon abhängt, wie vertraut die Nutzer mit der Technologie sind und wie gut die Prompts formuliert sind. Die Ergebnisse deuten darauf hin, dass bei häufiger Anwendung der Sprachmodelle die Diagnosen durch KI unterstützt werden können, aber keiner voreingenommenen Nutzung bedürfen. Zukünftige Studien müssen darüber hinaus untersuchen, wie KI und menschliches Wissen zusammengeführt werden können, um Patienten bestmöglich zu diagnostizieren.

Afficher plus

Carte mentale

Vidéo Q&R

  • Was zeigt die neue Studie zur KI und ärztlichen Diagnosen?

    Die Studie zeigt, dass KI-Modelle effektiv zur Unterstützung bei medizinischen Diagnosen eingesetzt werden können. In manchen Fällen übertreffen sie sogar die alleinige Leistung von Ärzten.

  • Wie wurden die Ärzte in der Studie aufgeteilt?

    Es wurden 51 Ärzte in drei Gruppen eingeteilt: 25 durften ein LLM nutzen, 25 durften es nicht nutzen, und eine Kontrollgruppe verwendete nur die KI.

  • Welche Rolle spielte das Prompt Engineering in der Studie?

    Ein speziell entwickeltes Prompt von Experten führte zu signifikant besseren Diagnose-Ergebnissen durch die KI.

  • Sind LLMs eine Gefahr für den Arztberuf?

    Obwohl LLMs in der Diagnoseleistung überraschend gut abschnitten, ersetzen sie Ärzte nicht. Vielmehr könnten sie in Zukunft als unterstützende Tools eingesetzt werden.

  • Warum waren die Diagnosen der KI besser als die der Ärzte?

    Die KI erhielt durch Prompt Engineering optimierte Anweisungen, was zu besseren Ergebnissen führte. Ärzte hatten zudem oft wenig Erfahrung mit der KI-Nutzung.

  • Welches LLM wurde in der Studie verwendet?

    Verwendet wurde eine frühere Version von ChatGPT vom Dezember 2023.

  • Warum ist die elektronische Patientenakte wichtig?

    Sie ermöglicht der KI und den Ärzten ein vollständigeres Bild der Patientenhistorie, was die Diagnosen verbessern könnte.

  • Wurden die Patientenfälle in der Studie der KI vorher bekannt gemacht?

    Nein, die Patientenfälle waren nicht öffentlich bekannt und konnten daher nicht in den Trainingsdaten der KI enthalten sein.

  • Gibt es Datenbeschränkungen für KI-basierte Diagnosen?

    Ja, der Datenschutz bei der Verwendung von elektronischen Patientenakten ist ein wichtiges Thema.

  • Können LLMs Erkrankungen genauso gut diagnostizieren wie Ärzte?

    LLMs können in einigen Tests mit Ärzten gleichziehen oder diese sogar übertreffen, besonders wenn sie durch effektives Prompting unterstützt werden.

Voir plus de résumés vidéo

Accédez instantanément à des résumés vidéo gratuits sur YouTube grâce à l'IA !
Sous-titres
de
Défilement automatique:
  • 00:00:00
    dein Arzt nutzt vermutlich auch Chat gbt
  • 00:00:03
    aber er ist damit deutlich schlechter
  • 00:00:06
    als wenn du einfach komplett blind den
  • 00:00:08
    Ergebnissen der KI vertraust zu diesem
  • 00:00:10
    unfassbar gruseligen Schluss kommt eine
  • 00:00:13
    neue Studie und das hat einige brutale
  • 00:00:15
    Bedeutung vor allem wenn man diese
  • 00:00:17
    Studie noch mal ein bisschen genauer
  • 00:00:18
    analysiert und genau das wollen wir
  • 00:00:20
    heute machen im Cyberspace herzlich
  • 00:00:23
    willkommen es geht um diese wunderschöne
  • 00:00:25
    Studie hier large language Model
  • 00:00:27
    influence und diagnostic reasoning
  • 00:00:30
    language Models bedeutet im Endeffekt
  • 00:00:31
    Chat GPT ein Chatbot der mit sehr viel
  • 00:00:35
    Wissen trainiert wurde das sind large
  • 00:00:37
    language Models man möchte sich in
  • 00:00:38
    dieser Studie aber nicht auf chatgbt
  • 00:00:40
    beschränken sondern grundsätzlich auch
  • 00:00:42
    andere wie z.B Gemini von Google oder
  • 00:00:45
    auch Lama mit einbeziehen grundsätzlich
  • 00:00:47
    wurde hier aber schon chatbt verwendet
  • 00:00:50
    es geht darum was genau passiert
  • 00:00:52
    eigentlich wenn wir erstten ein solches
  • 00:00:55
    large language Model zur Verfügung
  • 00:00:56
    stellen können die dann vielleicht
  • 00:00:58
    besser oder für elleicht sogar
  • 00:01:00
    schlechter Menschen diagnostizieren also
  • 00:01:03
    haben wir z.B eine Erkältung oder welche
  • 00:01:06
    weiterführenden Untersuchung braucht man
  • 00:01:08
    eigentlich wenn wir beispielsweise ein
  • 00:01:11
    Symptom oder mehrere Symptome haben man
  • 00:01:13
    muss allerdings diese Studie ein
  • 00:01:15
    bisschen genauer untersuchen denn im
  • 00:01:17
    Grunde genommen ist das was ich euch
  • 00:01:19
    gerade gesagt habe ein ausversehenes
  • 00:01:21
    Beiprodukt gewesen eine ausversehene
  • 00:01:24
    Findung das chatbt an sich die Ärzte
  • 00:01:27
    übertrifft eigentlich wollte man hier
  • 00:01:29
    zeigen
  • 00:01:31
    wir brauchen Schulung für solche large
  • 00:01:33
    language Models damit Ärzte die sinnvoll
  • 00:01:36
    verwenden können und na ja es ist ein
  • 00:01:38
    bisschen was anderes bei rausgekommen
  • 00:01:40
    und vor allem wenn man das noch mal
  • 00:01:41
    genauer analysiert aber dazu muss ich
  • 00:01:43
    euch erstmal ganz kurz das Studiendesign
  • 00:01:45
    zeigen also folgendes ist passiert wir
  • 00:01:48
    nehmen 51 Ärzte und teilen die auf in
  • 00:01:52
    eigentlich drei Gruppen wenn man so
  • 00:01:54
    möchte und zwar komplett zufällig 25
  • 00:01:57
    ärzte dürfen ein large language Mod
  • 00:02:00
    benutzen sollen es sogar benutzen müssen
  • 00:02:02
    aber nicht und 25 Ärzte die dürfen kein
  • 00:02:08
    large language Modell benutzen davor
  • 00:02:10
    wurde abgefragt wie häufig diese Ärzte
  • 00:02:12
    tatsächlich aktuell ein large language
  • 00:02:14
    Model wie chatgbt benutzen also ob sie
  • 00:02:16
    es mehrfach täglich benutzen oder
  • 00:02:18
    mehrfach die Woche oder mehrfach im
  • 00:02:20
    Monat oder seltener und dann gibt es
  • 00:02:23
    einen Kontrollarzt sozusagen und dieser
  • 00:02:26
    Kontrollarzt der darf nur mit der KI
  • 00:02:30
    Arbeiten der darf nicht selber irgendwas
  • 00:02:31
    machen darf selber nichts eingeben
  • 00:02:34
    sondern einfach nur komplett alle
  • 00:02:36
    Information die er hat in das large
  • 00:02:38
    language Model rein und das Ergebnis
  • 00:02:40
    ohne irgendwelche Interpretation oder
  • 00:02:42
    Veränderung ist das fertige Ergebnis so
  • 00:02:46
    und diese drei verschiedenen Gruppen
  • 00:02:50
    müssen jeweils dann sechs Menschen oder
  • 00:02:53
    sechs Krankheitsbilder im genau um genau
  • 00:02:55
    zu sein innerhalb einer Stunde
  • 00:02:58
    diagnostizieren und das ganze läuft dann
  • 00:03:00
    ab via Videokonferenz oder auch via
  • 00:03:03
    Arztgespräch und am Ende wird jedes
  • 00:03:07
    Ergebnis von einer blinden
  • 00:03:09
    Expertengruppe bewertet und das bedeutet
  • 00:03:12
    die wissen jetzt nicht also die Experten
  • 00:03:13
    wissen am Ende nicht ob der Arzt mit
  • 00:03:15
    chatgbt gearbeitet hat ob nur chatgbt
  • 00:03:19
    zum Einsatz kam oder ob ganz klassisch
  • 00:03:21
    gearbeitet wurde die haben keine Ahnung
  • 00:03:23
    die sind blind das ist was gutes in
  • 00:03:25
    solchen Studien und genau diese Experten
  • 00:03:27
    dürfen dann bewerten was ist richtig was
  • 00:03:30
    ist vielleicht so halbrichtig aber nicht
  • 00:03:32
    genau genug oder was ist sogar komplett
  • 00:03:34
    falsch und für all das gab's dann Punkte
  • 00:03:36
    die wiederum dazu geführt haben dass man
  • 00:03:39
    sagt ja das ist gut oder nein das ist
  • 00:03:41
    nicht so gut und die Fälle das ist auch
  • 00:03:44
    sehr wichtig gerade wenn wir im Kontext
  • 00:03:46
    von KI arbeiten diese Fälle waren der
  • 00:03:49
    Öffentlichkeit davor nicht bekannt das
  • 00:03:52
    ist extrem wichtig denn es hat sich
  • 00:03:54
    gezeigt dass chatgbt leider in den
  • 00:03:56
    Trainingsdaten auch gelegentlich mal
  • 00:03:58
    Fälle drin hat und die dann halt einfach
  • 00:04:00
    auswendig lernt deseswegen viele Studien
  • 00:04:02
    schwierig sind wenn die keine neuen
  • 00:04:03
    Fälle produzieren in diesem Fall haben
  • 00:04:05
    sie aber drauf geachtet und haben gesagt
  • 00:04:06
    wir nehmen Fälle die nicht öffentlich
  • 00:04:08
    verfügbar waren und dementsprechend auch
  • 00:04:10
    nicht in den Trainingsdaten der KI
  • 00:04:12
    verfügbar sein können so und die
  • 00:04:16
    Ergebnisse haben dann alle so ein
  • 00:04:19
    kleines bisschen verwundert es stellt
  • 00:04:22
    sich raus die Ärzte die ein large
  • 00:04:24
    language Modell benutzen durften LLM
  • 00:04:26
    steht für large language Modell die
  • 00:04:28
    waren ziemlich genau gleich gut wie die
  • 00:04:30
    Ärzte die keins benutzen durften und am
  • 00:04:33
    besten hat allein nur das LLM performt
  • 00:04:37
    also wenn der Arzt im Endeffekt gar
  • 00:04:39
    nichts zu sagen hatte und da muss ich
  • 00:04:42
    jetzt vielleicht ganz kurz ein bisschen
  • 00:04:43
    ausholen warum das eigentlich sein kann
  • 00:04:46
    und was ihr daraus mitnehmen könnt als
  • 00:04:49
    allererstes will ich mal ganz kurz sagen
  • 00:04:51
    bitte geht trotzdem zum Arzt ein Arzt
  • 00:04:53
    ist extrem wichtig und nur ein Arzt kann
  • 00:04:56
    euch eine richtige Diagnose geben das
  • 00:04:57
    ist wie mit Krankheitsbildern Google ja
  • 00:04:59
    da habt ihr immer Krebs deswegen bitte
  • 00:05:02
    lasst den Arzt nicht aus dem Spiel raus
  • 00:05:04
    das ganze ist eine Sache die ist in
  • 00:05:06
    Entwicklung ja die wird vermutlich dann
  • 00:05:09
    irgendwann in den Workflow des Arztes
  • 00:05:11
    eingebaut werden das heißt aber nicht
  • 00:05:13
    dass ihr nicht zum Arzt gehen solltet
  • 00:05:15
    wenn es euch nicht gut geht bitte geht
  • 00:05:17
    weiter dorthin ich will euch nur diese
  • 00:05:18
    Studie vorher
  • 00:05:20
    einmal schön zeigen und was da
  • 00:05:23
    eigentlich gerade in der Forschung alles
  • 00:05:24
    passiert trotzdem so eine KI kann
  • 00:05:26
    natürlich den Workflow von so einem Arzt
  • 00:05:28
    extrem positiv beeinflussen wie wir hier
  • 00:05:31
    sehen können und genau da wollen wir ja
  • 00:05:34
    eigentlich hin denn Ärzte sind bei uns
  • 00:05:36
    auf dem Land vor allem komplett
  • 00:05:38
    überlastet und die sind definitiv nicht
  • 00:05:39
    die einzigen und deswegen ich bin ein
  • 00:05:41
    riesiger Fan von Tools die einem das
  • 00:05:45
    Leben einfacher machen und gerade
  • 00:05:48
    aktuell jonglieren ziemlich viele von
  • 00:05:50
    uns zwischen Terminen Aufgaben Teams und
  • 00:05:54
    die Frage vielleicht warum die Zeit
  • 00:05:55
    immer viel zu knapp ist und da kommt
  • 00:05:57
    unser heutiger Partner ins Spiel Bitrix
  • 00:06:00
    24 ist die All-in-One Lösung für alles
  • 00:06:03
    was ihr in eurem Arbeitsalltag braucht
  • 00:06:05
    also ein CRM
  • 00:06:08
    Projektmanagement aber auch Kalender
  • 00:06:10
    Chats Videokonferenzen
  • 00:06:12
    Arbeitszeiterfassung sogar Berichte und
  • 00:06:15
    übrigens was mich persönlich besonders
  • 00:06:17
    fasziniert sogar ein websitebilder ist
  • 00:06:20
    darin enthalten alles in einem einzigen
  • 00:06:23
    Tool und das ist noch nicht mal das
  • 00:06:25
    Beste Bitrix 24 bietet einen
  • 00:06:28
    kostenfreien Tarif mit unbegrenzter
  • 00:06:30
    Nutzeranzahl und das zeitlich komplett
  • 00:06:32
    unlimitiert das heißt ihr könnt sofort
  • 00:06:35
    loslegen ohne Kreditkarte und alles
  • 00:06:38
    brauchen und alles verwenden was die so
  • 00:06:40
    euch anbieten probiert es einfach aus
  • 00:06:42
    solange ihr wollt das finde ich ein
  • 00:06:44
    ziemlich gutes Angebot und dann kann es
  • 00:06:46
    natürlich sein dass euch doch irgendwann
  • 00:06:47
    mal der Arbeitsalltag über den Kopf
  • 00:06:49
    wächst weswegen wir gesehen haben solche
  • 00:06:51
    ki-tools die können schon durchaus zu
  • 00:06:53
    Produktivität beitragen und dafür gibt's
  • 00:06:55
    den Copilot eine KI die euch bei CRM bei
  • 00:06:59
    Aufgaben und sogar im Chat unterstützt
  • 00:07:02
    ihr könnt beispielsweise Details zu
  • 00:07:05
    einer Aufgabe hinzufügen oder
  • 00:07:06
    Kundenkontakte priorisieren oder einfach
  • 00:07:08
    nur Chaos in Ordnung verwandeln der
  • 00:07:11
    chatgbt unterstützte Copilot hilft euch
  • 00:07:13
    dabei für mich als freelaner ist aber
  • 00:07:15
    vor allem auch die mobile App ehrlich
  • 00:07:17
    gesagt ein Segen denn damit kann ich z.B
  • 00:07:19
    immer schauen wo wir gerade am
  • 00:07:20
    dringendsten halt priorisieren müssen
  • 00:07:22
    also deswegen ich kann euch das ganze
  • 00:07:24
    nur empfehlen ich meine es ist kostenlos
  • 00:07:26
    startet am besten direkt und testet wie
  • 00:07:27
    Bitrix 24 e Arbeit persönlich
  • 00:07:30
    unterstützen kann gönnt euch gerne den
  • 00:07:32
    kostenfreien Tarif und überzeugt euch
  • 00:07:34
    selbst ohne Risiko ohne Kreditkarte
  • 00:07:36
    einfach ausprobieren und ganz besonders
  • 00:07:38
    Dank an Bitrix 24 dass ihr dieses Video
  • 00:07:41
    hier möglich gemacht habt und dafür dass
  • 00:07:43
    ihr Arbeit smarter und halt nicht härter
  • 00:07:46
    macht danke okay aber wir wollten ja
  • 00:07:48
    immer noch rausfinden warum eigentlich
  • 00:07:51
    und ich bin dem ganzen mal so ein
  • 00:07:52
    bisschen auf dem Grund gegangen ihr habt
  • 00:07:54
    vielleicht die Überschriften gesehen
  • 00:07:55
    chatgbt übertrifft Ärzte wir wollten mal
  • 00:07:57
    ein bisschen genauer wissen was steckt
  • 00:07:59
    da eigentlich dahinter denn es kann ja
  • 00:08:01
    nicht sein dass wenn ich eine KI Frage
  • 00:08:03
    und den Arzt nicht dass es dann besser
  • 00:08:05
    ist als wenn ich den Arzt mit KI Frage
  • 00:08:07
    eigentlich ist es genau das Gegenteil
  • 00:08:09
    von dem was ich immer erzähle und zwar
  • 00:08:11
    wir haben da ein paar Sachen gefunden
  • 00:08:13
    grundsätzlich es gibt einige Ärzte
  • 00:08:15
    dadurch dass sie zufällig in die Gruppen
  • 00:08:17
    aufgeteilt wurden die überhaupt keine
  • 00:08:19
    Erfahrung mit chatgbt haben stellt euch
  • 00:08:22
    vor meine Oma würde da irgendeine
  • 00:08:25
    Diagnose stellen und würde plötzlich so
  • 00:08:26
    eine KI vor die Nase gesetzt bekommen
  • 00:08:29
    die würde vermutlich einfach die KI
  • 00:08:32
    ignorieren und ganz normal weiter ihre
  • 00:08:34
    Arbeit machen es gab keine Kontrolle
  • 00:08:36
    dafür dass die Ärzte auch wirklich
  • 00:08:38
    chatgbt verwenden müssen selbst wenn sie
  • 00:08:41
    in der LLM Gruppe waren sie durften es
  • 00:08:43
    verwenden sie mussten nicht und das
  • 00:08:46
    könnte ein Argument sein warum hier
  • 00:08:48
    wirklich sehr sehr viele Ärzte die gar
  • 00:08:50
    keine Erfahrung haben bzw es noch gar
  • 00:08:52
    nie benutzt haben was fünf Ärzte waren
  • 00:08:54
    oder es vielleicht einmal benutzt haben
  • 00:08:57
    oder weniger als einmal im Monat
  • 00:08:59
    benutzen was für mich ehrlich gesagt
  • 00:09:01
    auch sehr wenig ist warum mehr als die
  • 00:09:03
    Hälfte der Ärzte eigentlich in dieser
  • 00:09:05
    Gruppe vermutlich fast ohne KI
  • 00:09:08
    gearbeitet hat also ich könnte mir
  • 00:09:11
    vorstellen dass die tatsächlich gesagt
  • 00:09:12
    ich ma einfach meine Arbeit wie immer
  • 00:09:14
    und mach halt meine Diagnose und
  • 00:09:16
    deswegen gab es da vermutlich sehr
  • 00:09:18
    wenige Unterschiede und tatsächlich gibt
  • 00:09:20
    es dazu auch einen Graf hier wird
  • 00:09:23
    untersucht wie gut die Ärzte eigentlich
  • 00:09:26
    ihre Diagnosen gestellt haben und es
  • 00:09:28
    wird unterschi zwischen denen die
  • 00:09:31
    weniger als einmal im Monat llms
  • 00:09:33
    verwenden und die mehr als einmal im
  • 00:09:35
    Monat llms verwenden und das fand ich
  • 00:09:38
    sehr sehr spannend einmal die Leute oder
  • 00:09:40
    die Ärzte die llms verwenden durften
  • 00:09:43
    aber keine Erfahrung damit haben die
  • 00:09:46
    haben einen Wert von 76% die müsst ihr
  • 00:09:49
    eher in Relation sehen das heißt höher
  • 00:09:51
    ist einfach besser und weniger ist
  • 00:09:53
    einfach schlechter das heißt nicht dass
  • 00:09:54
    76% aller Fälle exakt richtig
  • 00:09:57
    beantwortet wurden die haben wir Punkte
  • 00:09:58
    vergeben in dem expertenkomitee aber ihr
  • 00:10:00
    könnt sichuch so vorstellen drei Punkte
  • 00:10:02
    mehr ist schon ein gewisser Unterschied
  • 00:10:05
    aber kein mega riesiger Unterschied also
  • 00:10:08
    die Ärzte die keine Erfahrung haben mit
  • 00:10:11
    llms und gleichzeitig aber llms benutzen
  • 00:10:15
    durften haben 76 Punkte gehabt und die
  • 00:10:20
    die keine llms benutzen durften und auch
  • 00:10:23
    keine Erfahrung damit haben hatten auch
  • 00:10:26
    76 Punkten das heißt die waren exakt
  • 00:10:28
    gleich gich gut ich könnte mir gut
  • 00:10:31
    vorstellen dass die vielleicht da mal
  • 00:10:32
    was reingeschrieben haben dann gesagt
  • 00:10:33
    haben ja da kommen ich auch selber drauf
  • 00:10:35
    bra ich nicht das ist das eine das heißt
  • 00:10:37
    die waren wirklich exakt gleich gut wenn
  • 00:10:39
    sie keine Erfahrung hatten das zweite
  • 00:10:41
    ist aber und da wird jetzt spannend wenn
  • 00:10:44
    Sie das LLM also chatgbt mehr als einmal
  • 00:10:48
    im Monat verwenden mehrere Male im Monat
  • 00:10:50
    also häufige Nutzer von llms sind und
  • 00:10:53
    sie durften es benutzen haben sie 3%
  • 00:10:56
    Punkte besser gescort wenn sie es nicht
  • 00:10:59
    benutzen durften haben sie schlechter
  • 00:11:00
    gescor und zwar auch schlechter wie die
  • 00:11:03
    die es nicht benutzen durften aber keine
  • 00:11:05
    Erfahrung damit hatten das finde ich
  • 00:11:07
    sehr sehr spannend denn das würde
  • 00:11:09
    bedeuten vielleicht sie sind ein
  • 00:11:11
    bisschen faul geworden und verlassen
  • 00:11:13
    sich mehr auf die Diagnose mit KI jetzt
  • 00:11:15
    mittlerweile als davor das heißt sie
  • 00:11:18
    sind schlechter geworden als Arzt könnte
  • 00:11:20
    man jetzt so interpretieren bin ich aber
  • 00:11:22
    vorsichtig mit weil die Gruppe 25 Ärzte
  • 00:11:25
    ist jetzt nicht so sonderlich viel okay
  • 00:11:27
    aber trotzdem so eine gewisse ikation
  • 00:11:29
    ist da und wenn man dann tatsächlich
  • 00:11:30
    vergleicht die die es häufig verwenden
  • 00:11:33
    und es benutzen dürfen sind ziemlich gut
  • 00:11:36
    sogar 5% besser als die die es nicht
  • 00:11:38
    benutzen durften und fünf Punkte ist
  • 00:11:41
    tatsächlich nicht so wenig das
  • 00:11:44
    ist schon eine gewisse Menge an Menschen
  • 00:11:47
    die richtig oder falsch diagnostiziert
  • 00:11:49
    wurden einer konnte bis zu zwei Punkten
  • 00:11:52
    geben wenn er komplett richtig
  • 00:11:53
    diagnostiziert war und jemand der
  • 00:11:56
    komplett falsch diagnostiziert wurde hat
  • 00:11:58
    Hal null Punkte gegeben damit ihr da so
  • 00:12:00
    ein groben Anhaltspunkt habt
  • 00:12:03
    okay allerdings gab es dann eben noch
  • 00:12:06
    diesen einen Arzt der nur die KI
  • 00:12:09
    benutzen durfte und nur chchibt hatte
  • 00:12:12
    und der hat eben nicht 74 76 oder 79%
  • 00:12:17
    erreicht sondern halt unfassbare
  • 00:12:20
    92%. der hat Ärzte mit llms die
  • 00:12:22
    Erfahrung
  • 00:12:24
    hatten gleichermaßen outperformt wie die
  • 00:12:27
    Ärzte die kein LLM verwendet haben und
  • 00:12:29
    das will schon wirklich was heißen also
  • 00:12:31
    man muss schon sagen 92% ist schon ein
  • 00:12:35
    gewaltiger Unterschied und da gibt's
  • 00:12:37
    aber ein großes aber und das haben
  • 00:12:39
    leider diese ganzen Artikel nicht
  • 00:12:40
    beachtet auf das ich jetzt mal eingehen
  • 00:12:43
    möchte es gibt einige na ja Fakten in
  • 00:12:47
    dieser Studie die vielleicht zu kurz
  • 00:12:50
    gekommen sind und zwar erstens wir wir
  • 00:12:54
    fangen wir fangen unten an okay erstens
  • 00:12:57
    wir haben diese 92 Prozent aber dieser
  • 00:13:00
    Arzt hat nicht einfach nur die KI
  • 00:13:03
    bedient wie die anderen Ärzte sondern er
  • 00:13:05
    hat ein spezielles prompt bekommen ein
  • 00:13:08
    wirklich durchengineiertes prompt das
  • 00:13:10
    heißt von einem Experten in prompt
  • 00:13:12
    Engineering das heißt der hatte quasi
  • 00:13:15
    einen Experten der weiß wie man mit KI
  • 00:13:18
    umgehen kann und der hat ihm im Vorfeld
  • 00:13:19
    ein prompt geschrieben also eine
  • 00:13:21
    Anweisung für die KI geschrieben zu dem
  • 00:13:24
    ich übrigens auch einen Kurs gemacht
  • 00:13:25
    habe falls ihr da mal vorbeigucken wollt
  • 00:13:27
    wie man oder was man man genau fragen
  • 00:13:29
    soll und der Arzt hat dann einfach nur
  • 00:13:31
    noch das was er gefunden hat da
  • 00:13:33
    reingegeben und hat dann eine Antwort
  • 00:13:35
    rausbekommen das war nicht dieselbe oder
  • 00:13:38
    es war schon dieselbe KI aber es war
  • 00:13:40
    nicht dasselbe promt dass die Ärzte
  • 00:13:41
    benutzt haben das sollte so ein bisschen
  • 00:13:44
    zeigen okay wenn man weiß wie man mit
  • 00:13:45
    einer KI umgehen kann dann bekommt man
  • 00:13:47
    bessere Ergebnisse raus 92% im Vergleich
  • 00:13:50
    zu 76% okay das ist ein riesiger
  • 00:13:53
    Unterschied es gab aber noch sehr viel
  • 00:13:56
    mehr was ich zu bedenken geben möchte
  • 00:13:58
    diese Studie also das Paper dazu ist
  • 00:14:01
    zwar im Oktober diesen Jahres
  • 00:14:02
    rausgekommen also vor einem Monat oder
  • 00:14:05
    bisschen mehr als ein Monat aber das LLM
  • 00:14:08
    das benutzt wurde also sprich chatububt
  • 00:14:10
    war in der Version von letzten Dezember
  • 00:14:13
    also dezember
  • 00:14:15
    2023 damals waren kiysteme noch deutlich
  • 00:14:19
    schlechter als sie das heute sind und
  • 00:14:21
    bald soll noch ein neues Modell von
  • 00:14:23
    chatgbt rauskommen was noch mal massiv
  • 00:14:26
    besser ist dann kommt noch dazu dass die
  • 00:14:29
    Ergebnisse auch im Fall von diesem Arzt
  • 00:14:32
    hier am Ende von einem Arzt ausgewertet
  • 00:14:35
    wurden ja das heißt wenn ich so einen
  • 00:14:38
    Text eine Wall of text bekomme von
  • 00:14:40
    meiner KI und ich habe das Fachwissen
  • 00:14:42
    nicht dass ein Arzt hat dann kann ich
  • 00:14:44
    mit den Ergebnissen noch immer nichts
  • 00:14:46
    anfangen das wurde in der Studie
  • 00:14:47
    mehrfach betont dass die Ergebnisse für
  • 00:14:49
    einen Lin unbrauchbar waren der weiß
  • 00:14:52
    einfach dann zwar was er auf dem Papier
  • 00:14:54
    hat aber er kann damit nichts anfangen
  • 00:14:56
    und was ganz ganz wichtig ist das ganze
  • 00:14:59
    war a kontextuell ich gehe gleich auf
  • 00:15:01
    die einzelnen Punkte noch mal genauer
  • 00:15:02
    ein was das bedeutet und wie gesagt die
  • 00:15:04
    Ärzte wurden in dieser Gruppe wenn sie
  • 00:15:07
    llms benutzen durften nicht dazu
  • 00:15:09
    gezwungen llms zu verwenden das heißt
  • 00:15:11
    die konnten einfach ganz klassisch sagen
  • 00:15:12
    jo ich mache wie immer meine Diagnose
  • 00:15:14
    das heißt ich benutzt die KI nicht mal
  • 00:15:16
    so wir gehen jetzt noch mal durch diese
  • 00:15:17
    einzelnen Punkte durch weil die sind
  • 00:15:19
    wirklich signifikant ich fange mal an
  • 00:15:21
    mit dem ersten und zwar im November 2023
  • 00:15:25
    als die Studie begonnen hat das war
  • 00:15:26
    november bis dezember 2023 da war das
  • 00:15:29
    aktuelle Modell von chatgpt 4 Turbo
  • 00:15:33
    aktuell benutzen wir 4o was eine
  • 00:15:36
    deutliche Version drüber ist und jetzt
  • 00:15:38
    dann kommt gpt01 raus ich habe dazu
  • 00:15:41
    schon Video gemacht man hat aktuell die
  • 00:15:43
    Preview die man sehen kann aber nur
  • 00:15:45
    damit ihr eine Ahnung habt in welche
  • 00:15:48
    Richtung das geht das hier sind
  • 00:15:49
    Benchmarks und das ist der matee
  • 00:15:51
    Benchmark und der kleinste Balken hier
  • 00:15:54
    der der hellste von den blauen Balken
  • 00:15:57
    der ist das Modell der das hier zum
  • 00:16:00
    Einsatz kam das heißt die hatten ein
  • 00:16:02
    schwächeres Modell als das was wir heute
  • 00:16:04
    zu heutzutage haben und zwar wenn man
  • 00:16:07
    sich O1 anguckt ein massiv schwächeres
  • 00:16:11
    Modell das ist ja schon ein Unterschied
  • 00:16:13
    hier das heißt wenn wir diese Studie
  • 00:16:16
    heute noch mal durchführen würden könnte
  • 00:16:18
    es sein dass es sehr sehr viel besser
  • 00:16:22
    funktioniert heutzutage als damals das
  • 00:16:25
    heißt die erste könnten entweder mit
  • 00:16:27
    llms bessere ergeb bekommen oder wenn
  • 00:16:30
    man nur das LLM benutzt könnten
  • 00:16:32
    Ergebnisse noch mal besser sein also
  • 00:16:34
    behaltet das bitte im Kopf diese llms
  • 00:16:36
    die hier zum Einsatz kam sind ein Jahr
  • 00:16:38
    alt und ein Jahr im Sinne von KI ist 20
  • 00:16:42
    Jahre in allem anderen gefühlt das war
  • 00:16:44
    aber wirklich ein Gefühl das zweite war
  • 00:16:46
    das prompt Engineering es ist
  • 00:16:49
    mittlerweile weniger wichtig geworden
  • 00:16:52
    prompt zu engenieren das hat ein paar
  • 00:16:55
    Gründe ich will da ganz kurz drauf
  • 00:16:56
    eingehen wie gesagt in dem der Studie
  • 00:16:59
    hat ein professioneller prompt engineer
  • 00:17:02
    also der jemand der für der Experte
  • 00:17:04
    darin ist die KI zu bedienen ja der hat
  • 00:17:07
    im Endeffekt für den Arzt das prompt
  • 00:17:10
    geschrieben also die Anweisung
  • 00:17:11
    geschrieben der Arzt hat dann einfach
  • 00:17:12
    nur die Anweisung zusätzlich reingegeben
  • 00:17:14
    oder die Information der die er bekommen
  • 00:17:16
    hat von Patienten mittlerweile braucht
  • 00:17:19
    man das nicht mehr so stark es wird
  • 00:17:20
    weniger wichtig im Sinne von die KI
  • 00:17:24
    funktioniert teilweise sogar mit
  • 00:17:25
    kürzeren promts besser das sieht man vor
  • 00:17:27
    allem bei O1 promt Engineering ist
  • 00:17:29
    weniger wichtig geworden deswegen
  • 00:17:31
    vermute ich persönlich dass heutzutage
  • 00:17:34
    wenn wir das noch mal durchführen würden
  • 00:17:36
    und die Ärzte hätten das Modell 1 das
  • 00:17:39
    alles anschaut dann hätten wir nicht nur
  • 00:17:41
    die besseren Benchmarks die D mit
  • 00:17:43
    reinspielen würden sondern wir hätten
  • 00:17:45
    gleichzeitig auch noch nicht mehr
  • 00:17:46
    unbedingt den Bedarf nach einem
  • 00:17:48
    professionellen promt oder zumindest
  • 00:17:50
    nicht mehr so ein so ein krassen Bedarf
  • 00:17:51
    danach sondern es würde selbst verstehen
  • 00:17:55
    und sich selbst hinterfragen das ist
  • 00:17:57
    genau das was 1 im Endeffekt auch
  • 00:17:58
    ausmacht und das promt sozusagen
  • 00:18:00
    verbessern das heißt die Ärzte die keine
  • 00:18:02
    Erfahrung damit haben mit einer KI
  • 00:18:05
    können leichter an die Ergebnisse kommen
  • 00:18:08
    und das ist sehr sehr wertvoll das hier
  • 00:18:11
    sind übrigens gpts die man aktuell
  • 00:18:12
    ausprobieren kann ihr könnt gerne mal
  • 00:18:14
    ausprobieren ob die besser sind oder ob
  • 00:18:16
    eure eigenen Proms besser sind meistens
  • 00:18:18
    sind tatsächlich solche gpts ziemlich
  • 00:18:20
    ziemlich gut das dritte ist a
  • 00:18:24
    kontextuell was was genau bedeutet das
  • 00:18:25
    also zunächst einmal a kontextuell
  • 00:18:27
    bedeutet sowohl die Ärzte als auch die
  • 00:18:30
    KI hatten keine Hintergrundinformation
  • 00:18:33
    von den Patienten bei mir z.B ist super
  • 00:18:35
    wichtig ich hatte
  • 00:18:37
    beispielsweise Corona vor ein paar
  • 00:18:39
    Wochen ich war im Ausland ja hab das
  • 00:18:41
    vielleicht auf Instagram also ich hatte
  • 00:18:42
    nicht Corona vor ein paar Wochen das war
  • 00:18:43
    jetzt ein Beispiel aber ich war im
  • 00:18:44
    Ausland z.B wo vielleicht andere
  • 00:18:46
    Krankheiten erst später auftreten können
  • 00:18:49
    ich habe eine Patientenakte welche
  • 00:18:51
    Krankheiten hatte ich schon ja solche
  • 00:18:53
    Informationen sind extrem wichtig um
  • 00:18:56
    hervorzuheben was ich vielleicht haben
  • 00:18:58
    könnte
  • 00:18:59
    vielleicht bin ich persönlich wahnsig
  • 00:19:01
    anfällig für Stress weil ich permanent
  • 00:19:03
    Stress ausgesetzt bin bei der Arbeit
  • 00:19:05
    vielleicht bin ich persönlich aber auch
  • 00:19:07
    super anfällig weil ich irgendeine
  • 00:19:08
    immunsupprimierende Krankheit habe all
  • 00:19:11
    diese Informationen hatten weder die
  • 00:19:13
    Ärzte in dieser Studie noch die KI und
  • 00:19:16
    natürlich braucht man sowas und
  • 00:19:18
    natürlich hat euer Hausarzt all diese
  • 00:19:20
    Informationen zur Verfügung deswegen ist
  • 00:19:23
    ein hausarztwechsel auch so schwierig
  • 00:19:25
    deswegen ist es gar nicht so einfach zu
  • 00:19:27
    sagen dass man das jetzt generalisieren
  • 00:19:29
    kann diese Ergebnisse sind nicht
  • 00:19:30
    unbedingt auf alles übertragbar aber ein
  • 00:19:34
    großes aber es gibt schon einige Studien
  • 00:19:36
    wo gezeigt wurde dass chatgbt oder
  • 00:19:39
    generell large language Models
  • 00:19:42
    ganz gut mit einer Patientenakte umgehen
  • 00:19:45
    können das heißt nehmen wir mal an wir
  • 00:19:46
    haben in Deutschland die elektronische
  • 00:19:48
    Patientenakte und euer Arzt hat eine KI
  • 00:19:51
    die er verwenden kann oder man hat quasi
  • 00:19:53
    eine KI die alle Informationen verwendet
  • 00:19:56
    ohne dass der Arzt irgendwas tut beide
  • 00:19:57
    Beispiele in beiden Beispielen würde die
  • 00:20:00
    KI dann natürlich auch auf die
  • 00:20:01
    Informationen zugreifen die sie hat und
  • 00:20:04
    Studien zeigen dass chatgbt
  • 00:20:06
    beispielsweise ziemlich gut mit einer
  • 00:20:08
    Patientenakte umgehen kann trotzdem in
  • 00:20:11
    der Studie wurde das nicht
  • 00:20:12
    berücksichtigt und wir können keine
  • 00:20:13
    Aussage drüber drüber geben ob dann die
  • 00:20:16
    Ärzte besser sind oder die KI oder Ärzte
  • 00:20:19
    mit KI das wissen wir einfach noch nicht
  • 00:20:22
    das muss noch untersucht werden und der
  • 00:20:25
    vierte Punkt ist in dem Beispiel hatten
  • 00:20:28
    die Ärzten nur 10 Minuten pro Patient
  • 00:20:31
    zur Verfügung sie sollten sechs
  • 00:20:33
    Patienten in einer
  • 00:20:34
    Stunde quasi abfertigen und ich weiß
  • 00:20:38
    dass das häufig normal ist wenn man zu
  • 00:20:40
    einem Arzt geht und trotzdem ist das
  • 00:20:43
    viel zu wenig ihr müsst bedenken was ist
  • 00:20:45
    der riesige Vorteil von einer KI die
  • 00:20:48
    kann einfach berechnen und die gibt euch
  • 00:20:50
    dann eine Ausgabe die hat aber natürlich
  • 00:20:51
    auch schon unfassbar viele Daten und
  • 00:20:54
    produziert dann einfach eine Ausgabe
  • 00:20:55
    anhand von Text so der Arzt hingegen
  • 00:20:59
    muss diese Informationen langsam aus der
  • 00:21:01
    Nase des Patienten ziehen teilweise ist
  • 00:21:03
    das nicht so einfach und dafür sind 10
  • 00:21:05
    Minuten wirklich wirklich wenig und dann
  • 00:21:07
    hat er nicht wirklich Zeit um irgendwas
  • 00:21:09
    zu googeln oder um irgendwie sich
  • 00:21:11
    vielleicht auf Themen einzulassen die er
  • 00:21:13
    noch nicht kennt was eine KI nicht
  • 00:21:15
    machen muss dementsprechend ist ein Arzt
  • 00:21:18
    zeitlich limitiert während eine KI
  • 00:21:21
    zeitlich in dem Sinne nicht limitiert
  • 00:21:23
    ist eine Ausgabe oder eine
  • 00:21:25
    Berechnungszeit von 10 Minuten ist
  • 00:21:26
    unfassbar viel und wurde hier alles
  • 00:21:29
    teilweise berücksichtigt aber der Arzt
  • 00:21:31
    der halt das LLM benutzt hat der hat
  • 00:21:33
    natürlich in 10 Minuten locker ein
  • 00:21:35
    Ergebnis gehabt so das bitte ich alles
  • 00:21:38
    zu bedenken das heißt die Ergebnisse
  • 00:21:40
    müssen nicht ganz so eindeutig gesehen
  • 00:21:43
    werden und was noch viel wichtiger ist
  • 00:21:46
    das wird jetzt häufig als eine Art
  • 00:21:48
    hochmut kommt vor dem Fall Beispiel
  • 00:21:51
    genommen Ärzte braucht man bald nicht
  • 00:21:52
    mehr oder sonst
  • 00:21:53
    irgendwas wenn wir nehmen wir mal an das
  • 00:21:56
    Zeitlimit bei Ärzten eliminier
  • 00:21:59
    könnten so wie wir das bei KI können
  • 00:22:01
    dann hätten wir auch den Aspekt der
  • 00:22:02
    sprechenden Medizin mit eingebaut so ich
  • 00:22:04
    weiß nicht wie tief ihr in diesem
  • 00:22:05
    Bereich drin seid aber sprechende
  • 00:22:07
    Medizin kann einen extremen Einfluss
  • 00:22:09
    haben allein dass man sich von einem
  • 00:22:10
    Arzt verstanden fühlt oder wirklich
  • 00:22:12
    verstanden wird kann bei der Heilung
  • 00:22:16
    helfen das heißt nicht unbedingt dass
  • 00:22:18
    ihr dann die perfekte Medizin bekommt
  • 00:22:19
    aber das kann durchaus dazu führen dass
  • 00:22:22
    ihr bessere Medizin bekommt deswegen ist
  • 00:22:24
    es super super wichtig das zweite ist
  • 00:22:27
    ein Arzt kann sehr sehr schnell einen
  • 00:22:29
    beis entwickeln ich hatte das
  • 00:22:31
    tatsächlich schon häufiger mal dass ich
  • 00:22:32
    zu einem Arzt gegangen bin und der hat
  • 00:22:34
    immer genau dieselbe Leier gebracht
  • 00:22:36
    quasi jeder Patient der gekommen ist ja
  • 00:22:38
    Stress oder der nächste Arzt der bei dem
  • 00:22:40
    ich war der hat dann gesagt ja das so
  • 00:22:42
    weil er einmal in seiner Karriere quasi
  • 00:22:44
    ein Fall hatte der extrem in diese
  • 00:22:46
    Richtung tendiert hat und das brägt
  • 00:22:48
    natürlich so einen Arzt das kann was
  • 00:22:49
    Gutes sein das kann aber auch was
  • 00:22:50
    Schlechtes sein und so einen bis in dem
  • 00:22:53
    Sinne hat eine KI nicht die behandelt im
  • 00:22:56
    Endeffekt all das was sie zur Verfügung
  • 00:22:57
    hat sehr sehr ähnlich in dem Fall ist
  • 00:22:59
    also die KI quasi weniger mit bis
  • 00:23:02
    versehen und das dritte ist man braucht
  • 00:23:04
    dafür natürlich eine digitale
  • 00:23:05
    Patientenakte und ich sag mal so man
  • 00:23:09
    muss an Datenschutz denken weil wenn ich
  • 00:23:11
    einer KI all meine persönlichen Probleme
  • 00:23:14
    gebe und deswegen ich immer beim Arzt
  • 00:23:16
    war beispielsweise meine komplette Akte
  • 00:23:19
    gebe ist nicht unbedingt immer nur
  • 00:23:21
    angenehmen ja da kann was passieren aber
  • 00:23:24
    das ist Thema für ein komplett separates
  • 00:23:26
    Video so für bleibt jetzt also hängen
  • 00:23:29
    das Ganze ist ziemlich beeindruckend
  • 00:23:31
    aber kein e Heilmittel und Ärzte wird's
  • 00:23:34
    nicht ersetzen aber hoffentlich bald
  • 00:23:36
    unterstützen es zeigt definitiv auf
  • 00:23:38
    welchem Weg wir gerade sind wenn ihr
  • 00:23:40
    mehr von dem ganzen wollt oder
  • 00:23:41
    vielleicht auch einfach kein Video mehr
  • 00:23:42
    von mir verpassen wollt dann empfehle
  • 00:23:44
    ich euch definitiv mein Newsletter ich
  • 00:23:45
    habe den komplett überarbeitet und es
  • 00:23:47
    gibt jetzt mehr Information wenn ihr die
  • 00:23:49
    wollt ansonsten einfach immer noch
  • 00:23:50
    dieselben Information wie immer und eine
  • 00:23:52
    Art wirklich Newsletter also nicht von
  • 00:23:54
    mir sondern einfach von den wichtigen
  • 00:23:56
    Dingen die in der Technikwelt passieren
  • 00:23:58
    und und für alle die mehr wollen ich bin
  • 00:24:00
    zwar nicht mehr in Korea das habe ich
  • 00:24:02
    hier falsch geschrieben aber ich war in
  • 00:24:04
    Korea und da kommen natürlich auch immer
  • 00:24:05
    noch ein paar reels für euch raus und
  • 00:24:08
    natürlich auch noch andere schöne Bilder
  • 00:24:09
    oder vielleicht auch wieder mal ein paar
  • 00:24:11
    mehr Shorts bzw reels wer Bock drauf hat
  • 00:24:14
    super gerne reinfolgen bis zum nächsten
  • 00:24:15
    Mal im Cyberspace ciao
  • 00:24:19
    [Musik]
Tags
  • KI
  • Diagnose
  • LLM
  • ChatGPT
  • Arzt
  • Studie
  • Prompt Engineering
  • Patientenakte
  • Datenschutz
  • Gesundheitswesen