Was zeigt die neue Studie zur KI und ärztlichen Diagnosen?

Die Studie zeigt, dass KI-Modelle effektiv zur Unterstützung bei medizinischen Diagnosen eingesetzt werden können. In manchen Fällen übertreffen sie sogar die alleinige Leistung von Ärzten.

Wie wurden die Ärzte in der Studie aufgeteilt?

Es wurden 51 Ärzte in drei Gruppen eingeteilt: 25 durften ein LLM nutzen, 25 durften es nicht nutzen, und eine Kontrollgruppe verwendete nur die KI.

Welche Rolle spielte das Prompt Engineering in der Studie?

Ein speziell entwickeltes Prompt von Experten führte zu signifikant besseren Diagnose-Ergebnissen durch die KI.

Sind LLMs eine Gefahr für den Arztberuf?

Obwohl LLMs in der Diagnoseleistung überraschend gut abschnitten, ersetzen sie Ärzte nicht. Vielmehr könnten sie in Zukunft als unterstützende Tools eingesetzt werden.

Warum waren die Diagnosen der KI besser als die der Ärzte?

Die KI erhielt durch Prompt Engineering optimierte Anweisungen, was zu besseren Ergebnissen führte. Ärzte hatten zudem oft wenig Erfahrung mit der KI-Nutzung.

Welches LLM wurde in der Studie verwendet?

Verwendet wurde eine frühere Version von ChatGPT vom Dezember 2023.

Warum ist die elektronische Patientenakte wichtig?

Sie ermöglicht der KI und den Ärzten ein vollständigeres Bild der Patientenhistorie, was die Diagnosen verbessern könnte.

Wurden die Patientenfälle in der Studie der KI vorher bekannt gemacht?

Nein, die Patientenfälle waren nicht öffentlich bekannt und konnten daher nicht in den Trainingsdaten der KI enthalten sein.

Gibt es Datenbeschränkungen für KI-basierte Diagnosen?

Ja, der Datenschutz bei der Verwendung von elektronischen Patientenakten ist ein wichtiges Thema.

Können LLMs Erkrankungen genauso gut diagnostizieren wie Ärzte?

LLMs können in einigen Tests mit Ärzten gleichziehen oder diese sogar übertreffen, besonders wenn sie durch effektives Prompting unterstützt werden.

Studie: ChatGPT schlägt ÄRZTE um 16%?!

00:24:28

https://www.youtube.com/watch?v=swf2lCMRw6Q

摘要

TLDREine aktuelle Studie untersucht, wie gut Ärzte im Vergleich zu großen Sprachmodellen (Large Language Model, LLM) bei der Diagnosestellung performen. Es zeigt sich, dass LLMs – insbesondere wenn sie optimal durch sogenanntes Prompt Engineering genutzt werden – in der Lage sind, effizient und in manchen Fällen sogar besser als Ärzte selbst Diagnosen zu stellen. In der Studie wurden Ärzte in Gruppen aufgeteilt - solche, die ein LLM nutzen durften und diejenigen, die keines nutzen durften. Außerdem gab es eine Kontrollgruppe, die ausschließlich die KI zum Diagnostizieren einsetzte. Dabei ergab sich, dass Ärzte mit LLMs genauso gut abschnitten wie ohne, wenn sie wenig Erfahrung mit der Anwendung hatten. Interessanterweise führte der alleinige Einsatz der KI zu den besten Ergebnissen - teils bedingt durch die Optimierung der Eingabeprompten durch Experten, bekannt als Prompt Engineering. Auch wenn die KI in dieser experimentellen Umgebung sehr gut abschnitt, ersetzt sie nicht den menschlichen Arzt, sondern bietet Potenzial zur Unterstützung. Datenschutz und die Integration elektronischer Gesundheitsakten sind weitere entscheidende Faktoren für den Einsatz solcher Systeme.

心得

🤖 Die Studie untersucht den Einfluss von KI auf ärztliche Diagnosen.
👨‍⚕️ Ärzte mit LLMs performten ähnlich wie ohne LLMs.
📈 Die KI alleine erzielte die besten Diagnose-Ergebnisse.
🔍 Prompt Engineering optimierte die KI-Nutzung erheblich.
🧑‍⚕️ Ärzte werden durch LLMs nicht ersetzt, sondern unterstützt.
📊 KI verwendete Daten unbekannter Patientenfälle für Training.
🗂️ Elektronische Patientenakten können Diagnosen verbessern.
🔒 Datenschutz ist ein wichtiges Thema bei KI-Nutzung.
📉 Früheres KI-Modell war weniger leistungsfähig als aktuelle.
⏱️ Zeitlimit von 10 Minuten für Diagnosen in der Studie.

时间轴

00:00:00 - 00:05:00
Die Studie untersucht den Einfluss großer Sprachmodelle wie ChatGPT auf die medizinische Diagnostik. Anstatt Schulungen für Ärzte zu evaluieren, zeigte die Studie unerwartet, dass Ärzte, die solche Modelle nutzten, teilweise gleich oder weniger erfolgreich waren als die Modelle selbst. In der Studie wurden 51 Ärzte in Gruppen aufgeteilt: Einige durften ein Sprachmodell nutzen, andere nicht, und eine Kontrollgruppe durfte nur die KI verwenden. Die Beurteilung der Ergebnisse erfolgte durch eine unabhängige Expertengruppe.
00:05:00 - 00:10:00
Obwohl die Ärzte, die ein Sprachmodell nutzen durften, ähnliche Ergebnisse erzielten wie jene, die keins verwendeten, zeigte die Studie, dass ausschließlich das Sprachmodell bessere Ergebnisse lieferte. Allerdings wird betont, dass man weiterhin definitiv Ärzte konsultieren sollte, da sie unverzichtbare Informationen und Kontextwissen mit einbringen, die ein KI-Modell momentan nicht ersetzen kann.
00:10:00 - 00:15:00
Zudem beeinflussen KI-Tools wie ChatGPT den Arbeitsalltag und die Produktivität mit Tools wie Bitrix24. Diese Tools können helfen, den Workflow effizienter zu gestalten. Aber es ist wichtig, nicht komplett auf Ärzte zu verzichten, obwohl KI nützlich ist, vor allem in unterbesetzten ländlichen Gebieten. Der Bericht erwähnt auch die Bedeutung von bewusster und angepasster Nutzung solcher Technologien in der Medizin.
00:15:00 - 00:24:28
Der Bericht führt weiter aus, dass die Effektivität der KI-Modellnutzung davon abhängt, wie vertraut die Nutzer mit der Technologie sind und wie gut die Prompts formuliert sind. Die Ergebnisse deuten darauf hin, dass bei häufiger Anwendung der Sprachmodelle die Diagnosen durch KI unterstützt werden können, aber keiner voreingenommenen Nutzung bedürfen. Zukünftige Studien müssen darüber hinaus untersuchen, wie KI und menschliches Wissen zusammengeführt werden können, um Patienten bestmöglich zu diagnostizieren.

显示更多

思维导图

视频问答

Was zeigt die neue Studie zur KI und ärztlichen Diagnosen?
Die Studie zeigt, dass KI-Modelle effektiv zur Unterstützung bei medizinischen Diagnosen eingesetzt werden können. In manchen Fällen übertreffen sie sogar die alleinige Leistung von Ärzten.
Wie wurden die Ärzte in der Studie aufgeteilt?
Es wurden 51 Ärzte in drei Gruppen eingeteilt: 25 durften ein LLM nutzen, 25 durften es nicht nutzen, und eine Kontrollgruppe verwendete nur die KI.
Welche Rolle spielte das Prompt Engineering in der Studie?
Ein speziell entwickeltes Prompt von Experten führte zu signifikant besseren Diagnose-Ergebnissen durch die KI.
Sind LLMs eine Gefahr für den Arztberuf?
Obwohl LLMs in der Diagnoseleistung überraschend gut abschnitten, ersetzen sie Ärzte nicht. Vielmehr könnten sie in Zukunft als unterstützende Tools eingesetzt werden.
Warum waren die Diagnosen der KI besser als die der Ärzte?
Die KI erhielt durch Prompt Engineering optimierte Anweisungen, was zu besseren Ergebnissen führte. Ärzte hatten zudem oft wenig Erfahrung mit der KI-Nutzung.
Welches LLM wurde in der Studie verwendet?
Verwendet wurde eine frühere Version von ChatGPT vom Dezember 2023.
Warum ist die elektronische Patientenakte wichtig?
Sie ermöglicht der KI und den Ärzten ein vollständigeres Bild der Patientenhistorie, was die Diagnosen verbessern könnte.
Wurden die Patientenfälle in der Studie der KI vorher bekannt gemacht?
Nein, die Patientenfälle waren nicht öffentlich bekannt und konnten daher nicht in den Trainingsdaten der KI enthalten sein.
Gibt es Datenbeschränkungen für KI-basierte Diagnosen?
Ja, der Datenschutz bei der Verwendung von elektronischen Patientenakten ist ein wichtiges Thema.
Können LLMs Erkrankungen genauso gut diagnostizieren wie Ärzte?
LLMs können in einigen Tests mit Ärzten gleichziehen oder diese sogar übertreffen, besonders wenn sie durch effektives Prompting unterstützt werden.

查看更多视频摘要

即时访问由人工智能支持的免费 YouTube 视频摘要！

字幕

自动滚动:

00:00:00
dein Arzt nutzt vermutlich auch Chat gbt
00:00:03
aber er ist damit deutlich schlechter
00:00:06
als wenn du einfach komplett blind den
00:00:08
Ergebnissen der KI vertraust zu diesem
00:00:10
unfassbar gruseligen Schluss kommt eine
00:00:13
neue Studie und das hat einige brutale
00:00:15
Bedeutung vor allem wenn man diese
00:00:17
Studie noch mal ein bisschen genauer
00:00:18
analysiert und genau das wollen wir
00:00:20
heute machen im Cyberspace herzlich
00:00:23
willkommen es geht um diese wunderschöne
00:00:25
Studie hier large language Model
00:00:27
influence und diagnostic reasoning
00:00:30
language Models bedeutet im Endeffekt
00:00:31
Chat GPT ein Chatbot der mit sehr viel
00:00:35
Wissen trainiert wurde das sind large
00:00:37
language Models man möchte sich in
00:00:38
dieser Studie aber nicht auf chatgbt
00:00:40
beschränken sondern grundsätzlich auch
00:00:42
andere wie z.B Gemini von Google oder
00:00:45
auch Lama mit einbeziehen grundsätzlich
00:00:47
wurde hier aber schon chatbt verwendet
00:00:50
es geht darum was genau passiert
00:00:52
eigentlich wenn wir erstten ein solches
00:00:55
large language Model zur Verfügung
00:00:56
stellen können die dann vielleicht
00:00:58
besser oder für elleicht sogar
00:01:00
schlechter Menschen diagnostizieren also
00:01:03
haben wir z.B eine Erkältung oder welche
00:01:06
weiterführenden Untersuchung braucht man
00:01:08
eigentlich wenn wir beispielsweise ein
00:01:11
Symptom oder mehrere Symptome haben man
00:01:13
muss allerdings diese Studie ein
00:01:15
bisschen genauer untersuchen denn im
00:01:17
Grunde genommen ist das was ich euch
00:01:19
gerade gesagt habe ein ausversehenes
00:01:21
Beiprodukt gewesen eine ausversehene
00:01:24
Findung das chatbt an sich die Ärzte
00:01:27
übertrifft eigentlich wollte man hier
00:01:29
zeigen
00:01:31
wir brauchen Schulung für solche large
00:01:33
language Models damit Ärzte die sinnvoll
00:01:36
verwenden können und na ja es ist ein
00:01:38
bisschen was anderes bei rausgekommen
00:01:40
und vor allem wenn man das noch mal
00:01:41
genauer analysiert aber dazu muss ich
00:01:43
euch erstmal ganz kurz das Studiendesign
00:01:45
zeigen also folgendes ist passiert wir
00:01:48
nehmen 51 Ärzte und teilen die auf in
00:01:52
eigentlich drei Gruppen wenn man so
00:01:54
möchte und zwar komplett zufällig 25
00:01:57
ärzte dürfen ein large language Mod
00:02:00
benutzen sollen es sogar benutzen müssen
00:02:02
aber nicht und 25 Ärzte die dürfen kein
00:02:08
large language Modell benutzen davor
00:02:10
wurde abgefragt wie häufig diese Ärzte
00:02:12
tatsächlich aktuell ein large language
00:02:14
Model wie chatgbt benutzen also ob sie
00:02:16
es mehrfach täglich benutzen oder
00:02:18
mehrfach die Woche oder mehrfach im
00:02:20
Monat oder seltener und dann gibt es
00:02:23
einen Kontrollarzt sozusagen und dieser
00:02:26
Kontrollarzt der darf nur mit der KI
00:02:30
Arbeiten der darf nicht selber irgendwas
00:02:31
machen darf selber nichts eingeben
00:02:34
sondern einfach nur komplett alle
00:02:36
Information die er hat in das large
00:02:38
language Model rein und das Ergebnis
00:02:40
ohne irgendwelche Interpretation oder
00:02:42
Veränderung ist das fertige Ergebnis so
00:02:46
und diese drei verschiedenen Gruppen
00:02:50
müssen jeweils dann sechs Menschen oder
00:02:53
sechs Krankheitsbilder im genau um genau
00:02:55
zu sein innerhalb einer Stunde
00:02:58
diagnostizieren und das ganze läuft dann
00:03:00
ab via Videokonferenz oder auch via
00:03:03
Arztgespräch und am Ende wird jedes
00:03:07
Ergebnis von einer blinden
00:03:09
Expertengruppe bewertet und das bedeutet
00:03:12
die wissen jetzt nicht also die Experten
00:03:13
wissen am Ende nicht ob der Arzt mit
00:03:15
chatgbt gearbeitet hat ob nur chatgbt
00:03:19
zum Einsatz kam oder ob ganz klassisch
00:03:21
gearbeitet wurde die haben keine Ahnung
00:03:23
die sind blind das ist was gutes in
00:03:25
solchen Studien und genau diese Experten
00:03:27
dürfen dann bewerten was ist richtig was
00:03:30
ist vielleicht so halbrichtig aber nicht
00:03:32
genau genug oder was ist sogar komplett
00:03:34
falsch und für all das gab's dann Punkte
00:03:36
die wiederum dazu geführt haben dass man
00:03:39
sagt ja das ist gut oder nein das ist
00:03:41
nicht so gut und die Fälle das ist auch
00:03:44
sehr wichtig gerade wenn wir im Kontext
00:03:46
von KI arbeiten diese Fälle waren der
00:03:49
Öffentlichkeit davor nicht bekannt das
00:03:52
ist extrem wichtig denn es hat sich
00:03:54
gezeigt dass chatgbt leider in den
00:03:56
Trainingsdaten auch gelegentlich mal
00:03:58
Fälle drin hat und die dann halt einfach
00:04:00
auswendig lernt deseswegen viele Studien
00:04:02
schwierig sind wenn die keine neuen
00:04:03
Fälle produzieren in diesem Fall haben
00:04:05
sie aber drauf geachtet und haben gesagt
00:04:06
wir nehmen Fälle die nicht öffentlich
00:04:08
verfügbar waren und dementsprechend auch
00:04:10
nicht in den Trainingsdaten der KI
00:04:12
verfügbar sein können so und die
00:04:16
Ergebnisse haben dann alle so ein
00:04:19
kleines bisschen verwundert es stellt
00:04:22
sich raus die Ärzte die ein large
00:04:24
language Modell benutzen durften LLM
00:04:26
steht für large language Modell die
00:04:28
waren ziemlich genau gleich gut wie die
00:04:30
Ärzte die keins benutzen durften und am
00:04:33
besten hat allein nur das LLM performt
00:04:37
also wenn der Arzt im Endeffekt gar
00:04:39
nichts zu sagen hatte und da muss ich
00:04:42
jetzt vielleicht ganz kurz ein bisschen
00:04:43
ausholen warum das eigentlich sein kann
00:04:46
und was ihr daraus mitnehmen könnt als
00:04:49
allererstes will ich mal ganz kurz sagen
00:04:51
bitte geht trotzdem zum Arzt ein Arzt
00:04:53
ist extrem wichtig und nur ein Arzt kann
00:04:56
euch eine richtige Diagnose geben das
00:04:57
ist wie mit Krankheitsbildern Google ja
00:04:59
da habt ihr immer Krebs deswegen bitte
00:05:02
lasst den Arzt nicht aus dem Spiel raus
00:05:04
das ganze ist eine Sache die ist in
00:05:06
Entwicklung ja die wird vermutlich dann
00:05:09
irgendwann in den Workflow des Arztes
00:05:11
eingebaut werden das heißt aber nicht
00:05:13
dass ihr nicht zum Arzt gehen solltet
00:05:15
wenn es euch nicht gut geht bitte geht
00:05:17
weiter dorthin ich will euch nur diese
00:05:18
Studie vorher
00:05:20
einmal schön zeigen und was da
00:05:23
eigentlich gerade in der Forschung alles
00:05:24
passiert trotzdem so eine KI kann
00:05:26
natürlich den Workflow von so einem Arzt
00:05:28
extrem positiv beeinflussen wie wir hier
00:05:31
sehen können und genau da wollen wir ja
00:05:34
eigentlich hin denn Ärzte sind bei uns
00:05:36
auf dem Land vor allem komplett
00:05:38
überlastet und die sind definitiv nicht
00:05:39
die einzigen und deswegen ich bin ein
00:05:41
riesiger Fan von Tools die einem das
00:05:45
Leben einfacher machen und gerade
00:05:48
aktuell jonglieren ziemlich viele von
00:05:50
uns zwischen Terminen Aufgaben Teams und
00:05:54
die Frage vielleicht warum die Zeit
00:05:55
immer viel zu knapp ist und da kommt
00:05:57
unser heutiger Partner ins Spiel Bitrix
00:06:00
24 ist die All-in-One Lösung für alles
00:06:03
was ihr in eurem Arbeitsalltag braucht
00:06:05
also ein CRM
00:06:08
Projektmanagement aber auch Kalender
00:06:10
Chats Videokonferenzen
00:06:12
Arbeitszeiterfassung sogar Berichte und
00:06:15
übrigens was mich persönlich besonders
00:06:17
fasziniert sogar ein websitebilder ist
00:06:20
darin enthalten alles in einem einzigen
00:06:23
Tool und das ist noch nicht mal das
00:06:25
Beste Bitrix 24 bietet einen
00:06:28
kostenfreien Tarif mit unbegrenzter
00:06:30
Nutzeranzahl und das zeitlich komplett
00:06:32
unlimitiert das heißt ihr könnt sofort
00:06:35
loslegen ohne Kreditkarte und alles
00:06:38
brauchen und alles verwenden was die so
00:06:40
euch anbieten probiert es einfach aus
00:06:42
solange ihr wollt das finde ich ein
00:06:44
ziemlich gutes Angebot und dann kann es
00:06:46
natürlich sein dass euch doch irgendwann
00:06:47
mal der Arbeitsalltag über den Kopf
00:06:49
wächst weswegen wir gesehen haben solche
00:06:51
ki-tools die können schon durchaus zu
00:06:53
Produktivität beitragen und dafür gibt's
00:06:55
den Copilot eine KI die euch bei CRM bei
00:06:59
Aufgaben und sogar im Chat unterstützt
00:07:02
ihr könnt beispielsweise Details zu
00:07:05
einer Aufgabe hinzufügen oder
00:07:06
Kundenkontakte priorisieren oder einfach
00:07:08
nur Chaos in Ordnung verwandeln der
00:07:11
chatgbt unterstützte Copilot hilft euch
00:07:13
dabei für mich als freelaner ist aber
00:07:15
vor allem auch die mobile App ehrlich
00:07:17
gesagt ein Segen denn damit kann ich z.B
00:07:19
immer schauen wo wir gerade am
00:07:20
dringendsten halt priorisieren müssen
00:07:22
also deswegen ich kann euch das ganze
00:07:24
nur empfehlen ich meine es ist kostenlos
00:07:26
startet am besten direkt und testet wie
00:07:27
Bitrix 24 e Arbeit persönlich
00:07:30
unterstützen kann gönnt euch gerne den
00:07:32
kostenfreien Tarif und überzeugt euch
00:07:34
selbst ohne Risiko ohne Kreditkarte
00:07:36
einfach ausprobieren und ganz besonders
00:07:38
Dank an Bitrix 24 dass ihr dieses Video
00:07:41
hier möglich gemacht habt und dafür dass
00:07:43
ihr Arbeit smarter und halt nicht härter
00:07:46
macht danke okay aber wir wollten ja
00:07:48
immer noch rausfinden warum eigentlich
00:07:51
und ich bin dem ganzen mal so ein
00:07:52
bisschen auf dem Grund gegangen ihr habt
00:07:54
vielleicht die Überschriften gesehen
00:07:55
chatgbt übertrifft Ärzte wir wollten mal
00:07:57
ein bisschen genauer wissen was steckt
00:07:59
da eigentlich dahinter denn es kann ja
00:08:01
nicht sein dass wenn ich eine KI Frage
00:08:03
und den Arzt nicht dass es dann besser
00:08:05
ist als wenn ich den Arzt mit KI Frage
00:08:07
eigentlich ist es genau das Gegenteil
00:08:09
von dem was ich immer erzähle und zwar
00:08:11
wir haben da ein paar Sachen gefunden
00:08:13
grundsätzlich es gibt einige Ärzte
00:08:15
dadurch dass sie zufällig in die Gruppen
00:08:17
aufgeteilt wurden die überhaupt keine
00:08:19
Erfahrung mit chatgbt haben stellt euch
00:08:22
vor meine Oma würde da irgendeine
00:08:25
Diagnose stellen und würde plötzlich so
00:08:26
eine KI vor die Nase gesetzt bekommen
00:08:29
die würde vermutlich einfach die KI
00:08:32
ignorieren und ganz normal weiter ihre
00:08:34
Arbeit machen es gab keine Kontrolle
00:08:36
dafür dass die Ärzte auch wirklich
00:08:38
chatgbt verwenden müssen selbst wenn sie
00:08:41
in der LLM Gruppe waren sie durften es
00:08:43
verwenden sie mussten nicht und das
00:08:46
könnte ein Argument sein warum hier
00:08:48
wirklich sehr sehr viele Ärzte die gar
00:08:50
keine Erfahrung haben bzw es noch gar
00:08:52
nie benutzt haben was fünf Ärzte waren
00:08:54
oder es vielleicht einmal benutzt haben
00:08:57
oder weniger als einmal im Monat
00:08:59
benutzen was für mich ehrlich gesagt
00:09:01
auch sehr wenig ist warum mehr als die
00:09:03
Hälfte der Ärzte eigentlich in dieser
00:09:05
Gruppe vermutlich fast ohne KI
00:09:08
gearbeitet hat also ich könnte mir
00:09:11
vorstellen dass die tatsächlich gesagt
00:09:12
ich ma einfach meine Arbeit wie immer
00:09:14
und mach halt meine Diagnose und
00:09:16
deswegen gab es da vermutlich sehr
00:09:18
wenige Unterschiede und tatsächlich gibt
00:09:20
es dazu auch einen Graf hier wird
00:09:23
untersucht wie gut die Ärzte eigentlich
00:09:26
ihre Diagnosen gestellt haben und es
00:09:28
wird unterschi zwischen denen die
00:09:31
weniger als einmal im Monat llms
00:09:33
verwenden und die mehr als einmal im
00:09:35
Monat llms verwenden und das fand ich
00:09:38
sehr sehr spannend einmal die Leute oder
00:09:40
die Ärzte die llms verwenden durften
00:09:43
aber keine Erfahrung damit haben die
00:09:46
haben einen Wert von 76% die müsst ihr
00:09:49
eher in Relation sehen das heißt höher
00:09:51
ist einfach besser und weniger ist
00:09:53
einfach schlechter das heißt nicht dass
00:09:54
76% aller Fälle exakt richtig
00:09:57
beantwortet wurden die haben wir Punkte
00:09:58
vergeben in dem expertenkomitee aber ihr
00:10:00
könnt sichuch so vorstellen drei Punkte
00:10:02
mehr ist schon ein gewisser Unterschied
00:10:05
aber kein mega riesiger Unterschied also
00:10:08
die Ärzte die keine Erfahrung haben mit
00:10:11
llms und gleichzeitig aber llms benutzen
00:10:15
durften haben 76 Punkte gehabt und die
00:10:20
die keine llms benutzen durften und auch
00:10:23
keine Erfahrung damit haben hatten auch
00:10:26
76 Punkten das heißt die waren exakt
00:10:28
gleich gich gut ich könnte mir gut
00:10:31
vorstellen dass die vielleicht da mal
00:10:32
was reingeschrieben haben dann gesagt
00:10:33
haben ja da kommen ich auch selber drauf
00:10:35
bra ich nicht das ist das eine das heißt
00:10:37
die waren wirklich exakt gleich gut wenn
00:10:39
sie keine Erfahrung hatten das zweite
00:10:41
ist aber und da wird jetzt spannend wenn
00:10:44
Sie das LLM also chatgbt mehr als einmal
00:10:48
im Monat verwenden mehrere Male im Monat
00:10:50
also häufige Nutzer von llms sind und
00:10:53
sie durften es benutzen haben sie 3%
00:10:56
Punkte besser gescort wenn sie es nicht
00:10:59
benutzen durften haben sie schlechter
00:11:00
gescor und zwar auch schlechter wie die
00:11:03
die es nicht benutzen durften aber keine
00:11:05
Erfahrung damit hatten das finde ich
00:11:07
sehr sehr spannend denn das würde
00:11:09
bedeuten vielleicht sie sind ein
00:11:11
bisschen faul geworden und verlassen
00:11:13
sich mehr auf die Diagnose mit KI jetzt
00:11:15
mittlerweile als davor das heißt sie
00:11:18
sind schlechter geworden als Arzt könnte
00:11:20
man jetzt so interpretieren bin ich aber
00:11:22
vorsichtig mit weil die Gruppe 25 Ärzte
00:11:25
ist jetzt nicht so sonderlich viel okay
00:11:27
aber trotzdem so eine gewisse ikation
00:11:29
ist da und wenn man dann tatsächlich
00:11:30
vergleicht die die es häufig verwenden
00:11:33
und es benutzen dürfen sind ziemlich gut
00:11:36
sogar 5% besser als die die es nicht
00:11:38
benutzen durften und fünf Punkte ist
00:11:41
tatsächlich nicht so wenig das
00:11:44
ist schon eine gewisse Menge an Menschen
00:11:47
die richtig oder falsch diagnostiziert
00:11:49
wurden einer konnte bis zu zwei Punkten
00:11:52
geben wenn er komplett richtig
00:11:53
diagnostiziert war und jemand der
00:11:56
komplett falsch diagnostiziert wurde hat
00:11:58
Hal null Punkte gegeben damit ihr da so
00:12:00
ein groben Anhaltspunkt habt
00:12:03
okay allerdings gab es dann eben noch
00:12:06
diesen einen Arzt der nur die KI
00:12:09
benutzen durfte und nur chchibt hatte
00:12:12
und der hat eben nicht 74 76 oder 79%
00:12:17
erreicht sondern halt unfassbare
00:12:20
92%. der hat Ärzte mit llms die
00:12:22
Erfahrung
00:12:24
hatten gleichermaßen outperformt wie die
00:12:27
Ärzte die kein LLM verwendet haben und
00:12:29
das will schon wirklich was heißen also
00:12:31
man muss schon sagen 92% ist schon ein
00:12:35
gewaltiger Unterschied und da gibt's
00:12:37
aber ein großes aber und das haben
00:12:39
leider diese ganzen Artikel nicht
00:12:40
beachtet auf das ich jetzt mal eingehen
00:12:43
möchte es gibt einige na ja Fakten in
00:12:47
dieser Studie die vielleicht zu kurz
00:12:50
gekommen sind und zwar erstens wir wir
00:12:54
fangen wir fangen unten an okay erstens
00:12:57
wir haben diese 92 Prozent aber dieser
00:13:00
Arzt hat nicht einfach nur die KI
00:13:03
bedient wie die anderen Ärzte sondern er
00:13:05
hat ein spezielles prompt bekommen ein
00:13:08
wirklich durchengineiertes prompt das
00:13:10
heißt von einem Experten in prompt
00:13:12
Engineering das heißt der hatte quasi
00:13:15
einen Experten der weiß wie man mit KI
00:13:18
umgehen kann und der hat ihm im Vorfeld
00:13:19
ein prompt geschrieben also eine
00:13:21
Anweisung für die KI geschrieben zu dem
00:13:24
ich übrigens auch einen Kurs gemacht
00:13:25
habe falls ihr da mal vorbeigucken wollt
00:13:27
wie man oder was man man genau fragen
00:13:29
soll und der Arzt hat dann einfach nur
00:13:31
noch das was er gefunden hat da
00:13:33
reingegeben und hat dann eine Antwort
00:13:35
rausbekommen das war nicht dieselbe oder
00:13:38
es war schon dieselbe KI aber es war
00:13:40
nicht dasselbe promt dass die Ärzte
00:13:41
benutzt haben das sollte so ein bisschen
00:13:44
zeigen okay wenn man weiß wie man mit
00:13:45
einer KI umgehen kann dann bekommt man
00:13:47
bessere Ergebnisse raus 92% im Vergleich
00:13:50
zu 76% okay das ist ein riesiger
00:13:53
Unterschied es gab aber noch sehr viel
00:13:56
mehr was ich zu bedenken geben möchte
00:13:58
diese Studie also das Paper dazu ist
00:14:01
zwar im Oktober diesen Jahres
00:14:02
rausgekommen also vor einem Monat oder
00:14:05
bisschen mehr als ein Monat aber das LLM
00:14:08
das benutzt wurde also sprich chatububt
00:14:10
war in der Version von letzten Dezember
00:14:13
also dezember
00:14:15
2023 damals waren kiysteme noch deutlich
00:14:19
schlechter als sie das heute sind und
00:14:21
bald soll noch ein neues Modell von
00:14:23
chatgbt rauskommen was noch mal massiv
00:14:26
besser ist dann kommt noch dazu dass die
00:14:29
Ergebnisse auch im Fall von diesem Arzt
00:14:32
hier am Ende von einem Arzt ausgewertet
00:14:35
wurden ja das heißt wenn ich so einen
00:14:38
Text eine Wall of text bekomme von
00:14:40
meiner KI und ich habe das Fachwissen
00:14:42
nicht dass ein Arzt hat dann kann ich
00:14:44
mit den Ergebnissen noch immer nichts
00:14:46
anfangen das wurde in der Studie
00:14:47
mehrfach betont dass die Ergebnisse für
00:14:49
einen Lin unbrauchbar waren der weiß
00:14:52
einfach dann zwar was er auf dem Papier
00:14:54
hat aber er kann damit nichts anfangen
00:14:56
und was ganz ganz wichtig ist das ganze
00:14:59
war a kontextuell ich gehe gleich auf
00:15:01
die einzelnen Punkte noch mal genauer
00:15:02
ein was das bedeutet und wie gesagt die
00:15:04
Ärzte wurden in dieser Gruppe wenn sie
00:15:07
llms benutzen durften nicht dazu
00:15:09
gezwungen llms zu verwenden das heißt
00:15:11
die konnten einfach ganz klassisch sagen
00:15:12
jo ich mache wie immer meine Diagnose
00:15:14
das heißt ich benutzt die KI nicht mal
00:15:16
so wir gehen jetzt noch mal durch diese
00:15:17
einzelnen Punkte durch weil die sind
00:15:19
wirklich signifikant ich fange mal an
00:15:21
mit dem ersten und zwar im November 2023
00:15:25
als die Studie begonnen hat das war
00:15:26
november bis dezember 2023 da war das
00:15:29
aktuelle Modell von chatgpt 4 Turbo
00:15:33
aktuell benutzen wir 4o was eine
00:15:36
deutliche Version drüber ist und jetzt
00:15:38
dann kommt gpt01 raus ich habe dazu
00:15:41
schon Video gemacht man hat aktuell die
00:15:43
Preview die man sehen kann aber nur
00:15:45
damit ihr eine Ahnung habt in welche
00:15:48
Richtung das geht das hier sind
00:15:49
Benchmarks und das ist der matee
00:15:51
Benchmark und der kleinste Balken hier
00:15:54
der der hellste von den blauen Balken
00:15:57
der ist das Modell der das hier zum
00:16:00
Einsatz kam das heißt die hatten ein
00:16:02
schwächeres Modell als das was wir heute
00:16:04
zu heutzutage haben und zwar wenn man
00:16:07
sich O1 anguckt ein massiv schwächeres
00:16:11
Modell das ist ja schon ein Unterschied
00:16:13
hier das heißt wenn wir diese Studie
00:16:16
heute noch mal durchführen würden könnte
00:16:18
es sein dass es sehr sehr viel besser
00:16:22
funktioniert heutzutage als damals das
00:16:25
heißt die erste könnten entweder mit
00:16:27
llms bessere ergeb bekommen oder wenn
00:16:30
man nur das LLM benutzt könnten
00:16:32
Ergebnisse noch mal besser sein also
00:16:34
behaltet das bitte im Kopf diese llms
00:16:36
die hier zum Einsatz kam sind ein Jahr
00:16:38
alt und ein Jahr im Sinne von KI ist 20
00:16:42
Jahre in allem anderen gefühlt das war
00:16:44
aber wirklich ein Gefühl das zweite war
00:16:46
das prompt Engineering es ist
00:16:49
mittlerweile weniger wichtig geworden
00:16:52
prompt zu engenieren das hat ein paar
00:16:55
Gründe ich will da ganz kurz drauf
00:16:56
eingehen wie gesagt in dem der Studie
00:16:59
hat ein professioneller prompt engineer
00:17:02
also der jemand der für der Experte
00:17:04
darin ist die KI zu bedienen ja der hat
00:17:07
im Endeffekt für den Arzt das prompt
00:17:10
geschrieben also die Anweisung
00:17:11
geschrieben der Arzt hat dann einfach
00:17:12
nur die Anweisung zusätzlich reingegeben
00:17:14
oder die Information der die er bekommen
00:17:16
hat von Patienten mittlerweile braucht
00:17:19
man das nicht mehr so stark es wird
00:17:20
weniger wichtig im Sinne von die KI
00:17:24
funktioniert teilweise sogar mit
00:17:25
kürzeren promts besser das sieht man vor
00:17:27
allem bei O1 promt Engineering ist
00:17:29
weniger wichtig geworden deswegen
00:17:31
vermute ich persönlich dass heutzutage
00:17:34
wenn wir das noch mal durchführen würden
00:17:36
und die Ärzte hätten das Modell 1 das
00:17:39
alles anschaut dann hätten wir nicht nur
00:17:41
die besseren Benchmarks die D mit
00:17:43
reinspielen würden sondern wir hätten
00:17:45
gleichzeitig auch noch nicht mehr
00:17:46
unbedingt den Bedarf nach einem
00:17:48
professionellen promt oder zumindest
00:17:50
nicht mehr so ein so ein krassen Bedarf
00:17:51
danach sondern es würde selbst verstehen
00:17:55
und sich selbst hinterfragen das ist
00:17:57
genau das was 1 im Endeffekt auch
00:17:58
ausmacht und das promt sozusagen
00:18:00
verbessern das heißt die Ärzte die keine
00:18:02
Erfahrung damit haben mit einer KI
00:18:05
können leichter an die Ergebnisse kommen
00:18:08
und das ist sehr sehr wertvoll das hier
00:18:11
sind übrigens gpts die man aktuell
00:18:12
ausprobieren kann ihr könnt gerne mal
00:18:14
ausprobieren ob die besser sind oder ob
00:18:16
eure eigenen Proms besser sind meistens
00:18:18
sind tatsächlich solche gpts ziemlich
00:18:20
ziemlich gut das dritte ist a
00:18:24
kontextuell was was genau bedeutet das
00:18:25
also zunächst einmal a kontextuell
00:18:27
bedeutet sowohl die Ärzte als auch die
00:18:30
KI hatten keine Hintergrundinformation
00:18:33
von den Patienten bei mir z.B ist super
00:18:35
wichtig ich hatte
00:18:37
beispielsweise Corona vor ein paar
00:18:39
Wochen ich war im Ausland ja hab das
00:18:41
vielleicht auf Instagram also ich hatte
00:18:42
nicht Corona vor ein paar Wochen das war
00:18:43
jetzt ein Beispiel aber ich war im
00:18:44
Ausland z.B wo vielleicht andere
00:18:46
Krankheiten erst später auftreten können
00:18:49
ich habe eine Patientenakte welche
00:18:51
Krankheiten hatte ich schon ja solche
00:18:53
Informationen sind extrem wichtig um
00:18:56
hervorzuheben was ich vielleicht haben
00:18:58
könnte
00:18:59
vielleicht bin ich persönlich wahnsig
00:19:01
anfällig für Stress weil ich permanent
00:19:03
Stress ausgesetzt bin bei der Arbeit
00:19:05
vielleicht bin ich persönlich aber auch
00:19:07
super anfällig weil ich irgendeine
00:19:08
immunsupprimierende Krankheit habe all
00:19:11
diese Informationen hatten weder die
00:19:13
Ärzte in dieser Studie noch die KI und
00:19:16
natürlich braucht man sowas und
00:19:18
natürlich hat euer Hausarzt all diese
00:19:20
Informationen zur Verfügung deswegen ist
00:19:23
ein hausarztwechsel auch so schwierig
00:19:25
deswegen ist es gar nicht so einfach zu
00:19:27
sagen dass man das jetzt generalisieren
00:19:29
kann diese Ergebnisse sind nicht
00:19:30
unbedingt auf alles übertragbar aber ein
00:19:34
großes aber es gibt schon einige Studien
00:19:36
wo gezeigt wurde dass chatgbt oder
00:19:39
generell large language Models
00:19:42
ganz gut mit einer Patientenakte umgehen
00:19:45
können das heißt nehmen wir mal an wir
00:19:46
haben in Deutschland die elektronische
00:19:48
Patientenakte und euer Arzt hat eine KI
00:19:51
die er verwenden kann oder man hat quasi
00:19:53
eine KI die alle Informationen verwendet
00:19:56
ohne dass der Arzt irgendwas tut beide
00:19:57
Beispiele in beiden Beispielen würde die
00:20:00
KI dann natürlich auch auf die
00:20:01
Informationen zugreifen die sie hat und
00:20:04
Studien zeigen dass chatgbt
00:20:06
beispielsweise ziemlich gut mit einer
00:20:08
Patientenakte umgehen kann trotzdem in
00:20:11
der Studie wurde das nicht
00:20:12
berücksichtigt und wir können keine
00:20:13
Aussage drüber drüber geben ob dann die
00:20:16
Ärzte besser sind oder die KI oder Ärzte
00:20:19
mit KI das wissen wir einfach noch nicht
00:20:22
das muss noch untersucht werden und der
00:20:25
vierte Punkt ist in dem Beispiel hatten
00:20:28
die Ärzten nur 10 Minuten pro Patient
00:20:31
zur Verfügung sie sollten sechs
00:20:33
Patienten in einer
00:20:34
Stunde quasi abfertigen und ich weiß
00:20:38
dass das häufig normal ist wenn man zu
00:20:40
einem Arzt geht und trotzdem ist das
00:20:43
viel zu wenig ihr müsst bedenken was ist
00:20:45
der riesige Vorteil von einer KI die
00:20:48
kann einfach berechnen und die gibt euch
00:20:50
dann eine Ausgabe die hat aber natürlich
00:20:51
auch schon unfassbar viele Daten und
00:20:54
produziert dann einfach eine Ausgabe
00:20:55
anhand von Text so der Arzt hingegen
00:20:59
muss diese Informationen langsam aus der
00:21:01
Nase des Patienten ziehen teilweise ist
00:21:03
das nicht so einfach und dafür sind 10
00:21:05
Minuten wirklich wirklich wenig und dann
00:21:07
hat er nicht wirklich Zeit um irgendwas
00:21:09
zu googeln oder um irgendwie sich
00:21:11
vielleicht auf Themen einzulassen die er
00:21:13
noch nicht kennt was eine KI nicht
00:21:15
machen muss dementsprechend ist ein Arzt
00:21:18
zeitlich limitiert während eine KI
00:21:21
zeitlich in dem Sinne nicht limitiert
00:21:23
ist eine Ausgabe oder eine
00:21:25
Berechnungszeit von 10 Minuten ist
00:21:26
unfassbar viel und wurde hier alles
00:21:29
teilweise berücksichtigt aber der Arzt
00:21:31
der halt das LLM benutzt hat der hat
00:21:33
natürlich in 10 Minuten locker ein
00:21:35
Ergebnis gehabt so das bitte ich alles
00:21:38
zu bedenken das heißt die Ergebnisse
00:21:40
müssen nicht ganz so eindeutig gesehen
00:21:43
werden und was noch viel wichtiger ist
00:21:46
das wird jetzt häufig als eine Art
00:21:48
hochmut kommt vor dem Fall Beispiel
00:21:51
genommen Ärzte braucht man bald nicht
00:21:52
mehr oder sonst
00:21:53
irgendwas wenn wir nehmen wir mal an das
00:21:56
Zeitlimit bei Ärzten eliminier
00:21:59
könnten so wie wir das bei KI können
00:22:01
dann hätten wir auch den Aspekt der
00:22:02
sprechenden Medizin mit eingebaut so ich
00:22:04
weiß nicht wie tief ihr in diesem
00:22:05
Bereich drin seid aber sprechende
00:22:07
Medizin kann einen extremen Einfluss
00:22:09
haben allein dass man sich von einem
00:22:10
Arzt verstanden fühlt oder wirklich
00:22:12
verstanden wird kann bei der Heilung
00:22:16
helfen das heißt nicht unbedingt dass
00:22:18
ihr dann die perfekte Medizin bekommt
00:22:19
aber das kann durchaus dazu führen dass
00:22:22
ihr bessere Medizin bekommt deswegen ist
00:22:24
es super super wichtig das zweite ist
00:22:27
ein Arzt kann sehr sehr schnell einen
00:22:29
beis entwickeln ich hatte das
00:22:31
tatsächlich schon häufiger mal dass ich
00:22:32
zu einem Arzt gegangen bin und der hat
00:22:34
immer genau dieselbe Leier gebracht
00:22:36
quasi jeder Patient der gekommen ist ja
00:22:38
Stress oder der nächste Arzt der bei dem
00:22:40
ich war der hat dann gesagt ja das so
00:22:42
weil er einmal in seiner Karriere quasi
00:22:44
ein Fall hatte der extrem in diese
00:22:46
Richtung tendiert hat und das brägt
00:22:48
natürlich so einen Arzt das kann was
00:22:49
Gutes sein das kann aber auch was
00:22:50
Schlechtes sein und so einen bis in dem
00:22:53
Sinne hat eine KI nicht die behandelt im
00:22:56
Endeffekt all das was sie zur Verfügung
00:22:57
hat sehr sehr ähnlich in dem Fall ist
00:22:59
also die KI quasi weniger mit bis
00:23:02
versehen und das dritte ist man braucht
00:23:04
dafür natürlich eine digitale
00:23:05
Patientenakte und ich sag mal so man
00:23:09
muss an Datenschutz denken weil wenn ich
00:23:11
einer KI all meine persönlichen Probleme
00:23:14
gebe und deswegen ich immer beim Arzt
00:23:16
war beispielsweise meine komplette Akte
00:23:19
gebe ist nicht unbedingt immer nur
00:23:21
angenehmen ja da kann was passieren aber
00:23:24
das ist Thema für ein komplett separates
00:23:26
Video so für bleibt jetzt also hängen
00:23:29
das Ganze ist ziemlich beeindruckend
00:23:31
aber kein e Heilmittel und Ärzte wird's
00:23:34
nicht ersetzen aber hoffentlich bald
00:23:36
unterstützen es zeigt definitiv auf
00:23:38
welchem Weg wir gerade sind wenn ihr
00:23:40
mehr von dem ganzen wollt oder
00:23:41
vielleicht auch einfach kein Video mehr
00:23:42
von mir verpassen wollt dann empfehle
00:23:44
ich euch definitiv mein Newsletter ich
00:23:45
habe den komplett überarbeitet und es
00:23:47
gibt jetzt mehr Information wenn ihr die
00:23:49
wollt ansonsten einfach immer noch
00:23:50
dieselben Information wie immer und eine
00:23:52
Art wirklich Newsletter also nicht von
00:23:54
mir sondern einfach von den wichtigen
00:23:56
Dingen die in der Technikwelt passieren
00:23:58
und und für alle die mehr wollen ich bin
00:24:00
zwar nicht mehr in Korea das habe ich
00:24:02
hier falsch geschrieben aber ich war in
00:24:04
Korea und da kommen natürlich auch immer
00:24:05
noch ein paar reels für euch raus und
00:24:08
natürlich auch noch andere schöne Bilder
00:24:09
oder vielleicht auch wieder mal ein paar
00:24:11
mehr Shorts bzw reels wer Bock drauf hat
00:24:14
super gerne reinfolgen bis zum nächsten
00:24:15
Mal im Cyberspace ciao
00:24:19
[Musik]

标签

KI
Diagnose
LLM
ChatGPT
Arzt
Studie
Prompt Engineering
Patientenakte
Datenschutz
Gesundheitswesen