Z Geburtshilfe Neonatol 2025; 229(01): 15-21
DOI: 10.1055/a-2411-9516
Originalarbeit

KI-gestützte Entscheidungsfindung in der Geburtshilfe – eine Machbarkeitsstudie über die medizinische Genauigkeit und Zuverlässigkeit von ChatGPT

AI-supported decision-making in obstetrics – a feasibility study on the medical accuracy and reliability of ChatGPT

Authors

  • Simon Bader

    1   Frauenklinik, Universitätsklinikum Erlangen, Erlangen, Germany (Ringgold ID: RIN207200)
  • Michael O. Schneider

    1   Frauenklinik, Universitätsklinikum Erlangen, Erlangen, Germany (Ringgold ID: RIN207200)
  • Iason Psilopatis

    1   Frauenklinik, Universitätsklinikum Erlangen, Erlangen, Germany (Ringgold ID: RIN207200)
  • Daniel Anetsberger

    1   Frauenklinik, Universitätsklinikum Erlangen, Erlangen, Germany (Ringgold ID: RIN207200)
  • Julius Emons

    1   Frauenklinik, Universitätsklinikum Erlangen, Erlangen, Germany (Ringgold ID: RIN207200)
  • Sven Kehl

    2   Frauenklinik, Klinik Hallerwiese, Nürnberg, Germany (Ringgold ID: RIN396211)
 

Zusammenfassung

Ziel dieser Arbeit ist die Untersuchung der Anwendbarkeit von künstlicher Intelligenz in der Interpretation und Anwendung medizinischer Leitlinien zur Unterstützung klinischer Entscheidungsfindungen in der Geburtshilfe. ChatGPT wurden Leitlinien zu spezifischen geburtshilflichen Fragestellungen zur Verfügung gestellt. Am Beispiel von mehreren klinischen Szenarien wurde die KI daraufhin auf seine Fähigkeit geprüft, korrekte Diagnosen zu stellen und angemessene klinische Entscheidungen zu treffen. Die Ergebnisse variierten, wobei ChatGPT in einigen der fiktiven Szenarien überwiegend korrekte Antworten lieferte, in anderen jedoch unzureichend abschnitt. Trotz der Fähigkeit von ChatGPT, komplexe medizinische Informationen zu erfassen, zeigte die Untersuchung Einschränkungen in der Präzision und Zuverlässigkeit der Interpretationen und Empfehlungen. Diese Diskrepanzen weisen auf die Notwendigkeit einer sorgfältigen Überprüfung durch Fachpersonal hin und betonen die Bedeutung klarer, eindeutiger Leitlinien-Empfehlungen. Es bedarf zudem einer kontinuierlichen Entwicklung auf der technischen Seite um künstliche Intelligenz im klinischen Alltag als Unterstützung nutzen zu können. Insgesamt ist die Nutzung von KI in der Medizin vielversprechend, jedoch aktuell aufgrund potenzieller Fehleranfälligkeit und Interpretationsschwächen vornehmlich in kontrollierten, wissenschaftlichen Settings angebracht, um die Sicherheit und Genauigkeit der Patientenversorgung nicht zu gefährden.


Abstract

The aim of this study is to investigate the feasibility of artificial intelligence in the interpretation and application of medical guidelines to support clinical decision-making in obstetrics. ChatGPT was provided with guidelines on specific obstetric issues. Using several clinical scenarios as examples, the AI was then evaluated for its ability to make accurate diagnoses and appropriate clinical decisions. The results varied, with ChatGPT providing predominantly correct answers in some fictional scenarios but performing inadequately in others. Despite ChatGPT's ability to grasp complex medical information, the study revealed limitations in the precision and reliability of its interpretations and recommendations. These discrepancies highlight the need for careful review by healthcare professionals and underscore the importance of clear, unambiguous guideline recommendations. Furthermore, continuous technical development is required to harness artificial intelligence as a supportive tool in clinical practice. Overall, while the use of AI in medicine shows promise, its current suitability primarily lies in controlled scientific settings due to potential error susceptibility and interpretation weaknesses, aiming to safeguard the safety and accuracy of patient care.


Einleitung

Die zunehmende Anwendung von künstlicher Intelligenz (KI) stellt neue Anforderungen und Kenntnisse an künftige Generationen von Arbeitnehmern. Durch die zunehmende Integration künstlicher Intelligenz in tägliche Prozesse wird sich vor allem die Frage der Umsetzbarkeit respektive Integration in bestehende Abläufe, sowie die Frage nach Überprüfbarkeit und Reproduzierbarkeit der Ergebnisse stellen.

In einer Untersuchung von Kung et al. wurde nachgewiesen, dass der KI-gestützte Chatbot „chat generative pretrained transformer“ (ChatGPT) in der Lage ist, komplexe medizinische Information zu erfassen und zu interpretieren. Trotz seiner kurzen Verfügbarkeit zeigt das Programm bereits einen signifikanten Zuwachs an Wissen. Die Autoren evaluierten die Fähigkeit von ChatGPT, das United States Medical Licensing Examination (USMLE) zu bestehen, und stellten eine hohe Reproduzierbarkeit der Ergebnisse fest. Die vorliegenden Ergebnisse zeigten, dass ChatGPT gegenwärtig bereits im Stande ist, erfolgreich eine medizinische Abschlussprüfung zu bestehen [1] [2] [3].

In der Medizin kommt es aufgrund der kurzen Halbwertszeit von Wissen zu einer steten Zunahme der Komplexität in der klinischen Entscheidungsfindung. Die wachsende Menge an hochwertigen Studienergebnissen ermöglichte in den letzten Jahrzehnten eine verbesserte Qualität der Betreuung und Standardisierung der Arbeitsabläufe [4]. Vor allem in den letzten 10 Jahren gab es eine signifikante Zunahme von Leitlinien in der Pränatalmedizin, Perinatalmedizin und Geburtshilfe, die eine wichtige Hilfe in der Entscheidungsfindung darstellen. Insbesondere hoch qualitative und aufwendig erstellte konsens- und evidenzbasierte Leitlinien (S2 und S3) können dazu beitragen, dass ein einheitliches Vorgehen erzielt werden kann. Sie stellen die Grundlage für weitere Forschungsarbeiten dar. Viele der publizierten Leitlinien sind inhaltlich jedoch sehr umfangreich, weshalb die Vielfalt an Empfehlungen in der Praxis potentiell nicht wahrgenommen werden könnten. Dies könnte dann auch forensische Folgen haben. Vor diesem Hintergrund stellt sich die Frage, inwieweit KI in diesem Zusammenhang hilfreich sein kann. Es besteht die Hoffnung, dass durch die Zuhilfenahme von KI-basierten Entscheidungshilfen nicht indizierte Interventionen vermieden und gegebenenfalls die Versorgungsqualität gesteigert werden kann [5].

Ziel dieser Untersuchung war die Anwendbarkeit von KI im Kontext der Umsetzung von Leitlinien-Empfehlungen in klinische Entscheidungsfindungen.


Material und Methoden

Für diese Machbarkeitsstudie wurde ChatGPT in seiner aktuellen Version 4.0 genutzt. Die neue 4.0-Version von ChatGPT hat die Möglichkeit, Dokumente in das System hochzuladen und diese maschinell auszuwerten.

Im Rahmen dieser Untersuchung wurden klinische Fragestellungen im Zusammenhang zu hypertensiven Schwangerschaftserkrankungen, zur Geminigravidität, zur Geburtseinleitung und zur Geburt formuliert. Für diese klinischen Situationen liegen Handlungsempfehlungen in Form von Leitlinien vor. ChatGPT wurden die aktuellen Leitlinien „Hypertensive Schwangerschaftserkrankungen: Diagnose und Therapie“ (AWMF-Registernummer 015/018) [6], „Geburtseinleitung“ (AWMF-Registernummer 015/088) [7] und „Vaginale Geburt am Termin“ (AWMF-Registernummer 015/083) [8] zur Verfügung gestellt. Danach wurden ChatGPT verschiedene Fragen gestellt. In der ersten Frage sollte die korrekte Diagnosestellung überprüft werden. Hierzu sind die in den Leitlinien beschriebenen Definitionen hilfreich. Fünf weitere Fragen betrafen das Management in der jeweiligen klinischen Situation, zum Beispiel der Entbindungszeitpunkt, den Entbindungsort oder den Entbindungsmodus.

Da in der Leitlinie zur Geburtseinleitung lediglich verschiedene Einleitungsverfahren beschrieben, aber keine genauen Empfehlungen und Vorgaben zur präferierten Methode und deren Dosierung publiziert wurden [7], wurde ChatGPT zusätzlich das Standardvorgehen (SOP, standard operating procedure) der Geburtshilfe der Universitätsfrauenklinik Erlangen zur Verfügung gestellt.

Im letzten Schritt wurde ChatGPT zur besseren Vergleichbarkeit der Ergebnisse gebeten, das Gespräch in fünf Kernaussagen zusammenzufassen. Als Bewertungsmaßstab für die fünf Aussagen wurde unsererseits das folgende System zur Einordnung der ChatGPT-Antwort verwendet. In dem Modell kann pro Frage 0 bis 2 Punkte vergeben werden, sodass maximal eine Punktzahl von 10 Punkten zu erreichen war. Ein Ergebnis ab 8 Punkte wurde als „sehr gutes“ Ergebnis für die Genauigkeit der Angaben von ChatGPT interpretiert. Ein Ergebnis von 6 oder 7 Punkte wurde als „akzeptables“ Ergebnis eingeschätzt, da wenigstens eine individuelle Antwort für den jeweiligen Fall gegeben werden musste. Ein Ergebnis unter 5 Punkten zeigte, dass ChatGPT für diesen Fall nicht in der Lage war, eine individuelle Antwort zu geben, sodass dieses Ergebnis als „unzureichende“ Interpretation der KI eingestuft wurde.

ChatGPT wurde explizit instruiert, nur Antworten auf Grundlage der Leitlinien und der SOP „Geburtseinleitung“ zu verfassen.

Ein Beispiel eines Chat-Verlaufs mit ChatGPT ist in der [Abb. 1] dargestellt.

Zoom
Abb. 1 Beispiel eines Chat-Verlaufs mit ChatGPT.

Alle Fälle sind fiktiv und ohne Patientenbezug erstellt worden. Die Fälle wurden von Ärzten in der Weiterbildung zum Facharzt für Frauenheilkunde und Geburtshilfe, Fachärzten für Frauenheilkunde und Geburtshilfe und Fachärzten mit dem Schwerpunkt Spezielle Geburtshilfe und Perinatalmedizin erstellt. Die ChatGPT präsentierten Fallbeispiele werden in den [Tab. 1] [2] [3] [4] [5] tabellarisch dargestellt.

Tab. 1 Fall 1, Terminüberschreitung.

Kategorie

Informationen Fall 1

Patientendaten

34-jährige Patientin IG/0 P

Schwangerschaftswochen

41+1

Vorherige Schwangerschaften

Keine

Vorerkrankungen

Keine

Voroperationen

Keine

Dauermedikation

Keine

Besonderheiten

  • Schwangerschaftswoche im ersten Trimenon nach Scheitelsteißlänge korrigiert

  • Bishop Score 1

Vitalparameter

  • Blutdruck 116/83

  • Puls: 79/min

  • Körpertemperatur: 36,6°C

Tab. 2 Fall 2, Gestationsdiabetes, insulinpflichtig.

Kategorie

Informationen Fall 2

Patientendaten

31-jährige Patientin IG/0 P

Schwangerschaftswochen

40+0

Vorherige Schwangerschaften

Zustand nach Spontanpartus

Vorerkrankungen

Keine

Voroperationen

Keine

Dauermedikation

Insulin Lantus

Besonderheiten

  • Gestationsdiabetes mit Insulinpflicht

  • Bishop Score 3

Vitalparameter

  • Blutdruck: 138/82 mmHg

  • Puls: 76/min

  • Körpertemperatur: 36,9°C

Tab. 3 Fall 3, Zustand nach Sectio caesarea.

Kategorie

Informationen Fall 3

Patientendaten

26-jährige Patientin, IIG/IP

Schwangerschaftswochen

37+0

Vorherige Schwangerschaften

Zustand nach Sectio caesarea bei Beckenendlage, zuletzt vor zwei Jahren komplikationslos, per Queruterotomie

Vorerkrankungen

Hypothyreose

Voroperationen

Sectio caesarea

Dauermedikation

L-Thyroxin 75 µg

Besonderheiten

  • Zustand nach Sectio zur Geburtsmodusbesprechung

  • Bishop Score 0

Vitalparameter

  • Blutdruck: 128/72 mmHg

  • Puls: 66/min

  • Körpertemperatur: 36,8°C

Tab. 4 Fall 4, Missed abortion.

Kategorie

Informationen Fall 4

Patientendaten

22-jährige IIIG/0 P

Schwangerschaftswochen

15+1

Vorherige Schwangerschaften

Zustand nach zweimaligem Abort in der 13. und der 16. Schwangerschaftswoche

Vorerkrankungen

Depression

Voroperationen

Zustand nach Abortkürettage

Dauermedikation

Quetiapin 5 mg (0-0-0-1)

Besonderheiten

  • Extern vor 4 Wochen positive Herzaktion, heute negative Herzaktion ohne fetales Wachstum

  • Verdacht auf missed abortion aufgrund des klinischen Wohlbefindens der Patientin

Vitalparameter

  • Blutdruck: 128/72 mmHg

  • Puls: 66/min

  • Körpertemperatur: 36,8°C

Tab. 5 Fall 5, Geminigravidität, dichorial.

Kategorie

Informationen Fall 5

Patientendaten

30-jährige IG/0 P

Schwangerschaftswochen

32+5

Vorherige Schwangerschaften

Keine

Vorerkrankungen

Keine

Voroperationen

Zustand nach Konisation

Dauermedikation

Keine

Besonderheiten

  • Dichoriale Geminigravidität

  • Führender Fetus in Schädellage auf der 35. Perzentile

  • Zweiter Fetus in Beckenendlage auf der 30. Perzentile

  • Bishop Score 0

Vitalparameter

  • Blutdruck: 122/75 mmHg

  • Puls: 68/min

  • Körpertemperatur: 36,8°C


Ergebnisse

In den [Abb. 2] [3] [4] [5] [6] sind die zusammenfassenden Sätze aus dem Chatverlauf mit ChatGPT dargestellt. Der jeweilige vollständige Chatverlauf mit dem Chatbot ist im angefügten Link abrufbar und der Appendix angehängt.

Zoom
Abb. 2 Fall: 1 Terminüberschreitung.
Zoom
Abb. 3 Fall 2: Gestationsdiabetes.
Zoom
Abb. 4 Fall 3: Z.n. Sectio.
Zoom
Abb. 5 Fall 4: missed abortion.
Zoom
Abb. 6 Fall 5: Geminigravidität.

Bewertung Fall 1

ChatGPT konnte die korrekte Diagnose einer Terminüberschreitung, entsprechend der Leitlinie, nicht präzise erfassen (0 Punkte). Es wurde eine Übertragung angegeben. Ebenso wurden die Indikation und der Zeitpunkt der Einleitung nicht vollumfänglich erfasst (je 1 Punkt). Die Einleitungsmethode entsprechend der SOP mit der Verwendung eines Ballonkatheters gefolgt von Misoprostol oder Dinoproston war korrekt (2 Punkte). Auch die Option einer ambulanten Geburtseinleitung wurde richtig erfasst (2 Punkte). Insgesamt wurden 6 Punkte vergeben. Das Ergebnis war „akzeptabel“.


Bewertung Fall 2

ChatGPT stellte die Diagnose eines insulinpflichtigen Gestationsdiabetes korrekt (2 Punkte). Des Weiteren empfahl ChatGPT korrekterweise die Einleitung der Geburt bei einer Schwangerschaftsdauer von 40+0 Wochen, wenn eine Indikation für die Einleitung aufgrund des insulinpflichtigen Gestationsdiabetes vorlag (jeweils 2 Punkte). Die von ChatGPT vorgeschlagene Einleitungsmethode entsprach den Vorgaben der SOP (2 Punkte). Allerdings gab ChatGPT für die ambulante Geburtseinleitung lediglich eine allgemeine Empfehlung, ohne spezifische Berücksichtigung des insulinpflichtigen Gestationsdiabetes, ab. Da eine ambulante Geburtseinleitung unter diesen Bedingungen kein Standardverfahren darstellt wurde nur 1 Punkt vergeben. Mit einer Gesamtpunktzahl von 9 war das Ergebnis „sehr gut“.


Bewertung Fall 3

ChatGPT stellte in diesem Fall korrekt die Diagnose Zustand nach Sectio caesarea und Hypothyreose (2 Punkte). Es wurde zudem richtig erfasst, dass derzeit noch keine Indikation zur Geburtseinleitung mit 37+0 SSW besteht (2 Punkte). Als Einleitungszeitpunkt wurde jedoch 37+0 SSW von ChatGPT als medizinisch vertretbar angesehen (0 Punkte). Für die Einleitungsmethode wurde korrekt der Ballonkatheter genannt, jedoch nicht auf die Besonderheit bei Zustand nach Sectio caesarea eingegangen (1 Punkt). Eine ambulante Geburtseinleitung war laut ChatGPT mit Hinweis auf besondere Vorsicht bei Zustand nach Sectio caesarea vertretbar; dies entspricht aber nicht den Vorgaben der SOP, weshalb nur 1 Punkt vergeben wurde. Mit 6 Gesamtpunkten war das Ergebnis „akzeptabel“.


Bewertung Fall 4

Die Diagnose einer missed abortion wurde richtig gestellt (2 Punkte). Die Einleitungsindikation wurde als nichtzutreffend bewertet, da ein chirurgisches Prozedere gewählt wurde. Daraus resultierte auch keine Angabe des Einleitungszeitpunktes. Für beide Fragestellungen wurde kein Punkt vergeben. Die Einleitungsmethode wurde allgemeingültig formuliert, ohne korrekte Angabe der Methode (0 Punkte). Die Frage nach ambulanter Geburtseinleitung wurde als möglich angegeben (0 Punkte). Für diesen Fall konnten nur 2 Gesamtpunkte vergeben werden, das Ergebnis war somit „unzureichend“.


Bewertung Fall 5

Die Diagnose einer dichorialen Geminigravidität wurde korrekt gestellt (2 Punkte). Die aktuelle Schwangerschaftswoche veranlasste ChatGPT, keine unmittelbare Geburtseinleitung durchzuführen (2 Punkte). Einen konkreten Einleitungszeitpunkt bei Indikation dichorialer Geminigraviditäten gab ChatGPT aber nicht an, lediglich, dass eine Einleitung vor der 37. Woche nur aus medizinischer Indikation erfolgen sollte (1 Punkte). Die SOP zur Geburtseinleitung wurde von ChatGPT unter Betrachtung des aktuellen Bishop scores richtig angegeben (2 Punkte). Eine ambulante Geburtseinleitung wurde als möglich erachtet (1 Punkte). Insgesamt konnten 8 Punkte vergeben werden; das Ergebnis war somit „sehr gut“.

In der [Tab. 6] ist Übersicht der Bewertung der Aussagen von ChatGPT und deren Bewertung mittels Punkte-Score dargestellt.

Tab. 6 Bewertung der Aussagen von ChatGPT pro Fall.

Bewertungskriterium

Bewertung

Fall 1

Fall 2

Fall 3

Fall 4

Fall 5

Korrekte Diagnosestellung?

0

2

2

2

2

Einleitungsindikation korrekt erfasst?

1

2

2

0

2

Einleitungszeitpunkt korrekt erfasst?

1

2

0

0

1

Empfehlung zur Einleitungsmethode ausgesprochen?

2

2

1

0

2

Ambulante Geburtseinleitung möglich?

2

1

1

0

1

Gesamt (Punkte/ 10 Maximalpunktzahl):

6

9

6

2

8

Bewertung: 0=Antwort nicht zutreffend, 1=Antwort in Aspekten korrekt, jedoch allgemeingültig formuliert, 2=Antwort vollumfänglich korrekt, Gesamtbewertung:≥8 Punkte=sehr gut, 6–8 Punkte: akzepabel,≤5: unzureichend.



Diskussion

ChatGPT ist ein breit verfügbarer Chatbot auf den bestimmte Patientenkollektive bereits jetzt zugreifen, um weitere Informationen über eine Diagnose zu erhalten. Einige Patienten benötigen eine Übersetzung medizinischen Fachtermini in Arztberichten und wünschen sich eine Übersetzung in laiengerechte Sprache. Jeblick et al. gaben ChatGPT radiologische Berichte zur Übersetzung in laienverständliche Sprache. die KI konnte simple Befunde zutreffend in laienverständlicher Sprache widergeben [9]. Ein anderes Patientenkollektiv stellen onkologische Patienten dar. Insbesondere nach Diagnosestellung kommen im Verlauf viele, subjektiv dringliche Fragen bei Patienten auf. Unter Zuhilfenahme von KI kann gegebenenfalls eine schnelle, suffiziente Antwort eingeholt werden. ChatGPT konnte auch hier allgemeingültige Fragen onkologischer Patientinnen überwiegend zutreffend beantworten [10]. Eine weitere Anwendung von KI liegt in der Verarbeitung großer Informationsmengen. Im Bereich der Gynäkologie wurde mittels ChatGPT beispielsweise versucht, die Therapieentscheidung einer Tumorkonferenz vorherzusagen. Lukac et al. präsentierten ChatGPT Fälle von Patientinnen mit einem Mammakarzinom und baten ChatGPT eine Therapieentscheidung zu treffen. ChatGPT war in über 50% der Fälle in der Lage, die Entscheidung korrekt vorauszusagen. Die Autoren kamen zu dem Schluss, dass vor allem die bereitgestellten Informationen und deren Präsentation wichtig für die Vorhersagekraft von KI-Anwendungen ist [11].

Eine Standardisierung medizinischer Maßnahmen und Diagnosen wird durch umfangreiche, auf Grundlage aussagekräftiger Studien verfasster Leitlinien vorgenommen. Auch in der Geburtshilfe dienen Leitlinien als Entscheidungsrahmen für die evidenzbasierte medizinische Versorgung von Schwangeren. Eine für den klinischen Alltag wichtige Leitlinie ist die S3-Leitlinie „Die vaginale Geburt am Termin“ (AWMF Registernummer 015/083). Diese Leitlinie hebt hervor, dass medizinische Interventionen ohne Handlungsbedarf vermieden werden sollten [8]. Eine weitere klinisch relevante Leitlinie ist die zur Geburtseinleitung [7]. Die vorzeitige Beendigung der Schwangerschaft mittels Geburtseinleitung stellt mittlerweile eine der häufigsten Interventionen in der Geburtshilfe dar. In Deutschland wurden im Jahr 2022 ungefähr 21,4% aller Geburten eingeleitet [12]. Die häufigsten Indikationen zur Geburtseinleitung waren die Terminüberschreitung, der vorzeitige Blasensprung und Erkrankungen aus dem Formenkreis der hypertensiven Schwangerschaftserkrankungen (z. B. Gestationshypertonie und Präeklampsie). Die Entscheidung für oder gegen eine Geburtseinleitung setzt immer eine individuelle Risiko-Nutzen-Bewertung voraus, um den gewünschten Effekt eines verbesserten perinatalen Outcomes zu erreichen [13].

Die in dieser Untersuchung verwendeten Leitlinien geben, insbesondere durch einheitliche Definitionen und orientierende Handlungsanweisungen, einen Leitfaden für ärztliches Handeln vor.

In den einzelnen Fallvorstellungen zeigte ChatGPT Mängel in der korrekten Erfassung dieser Definitionen. So wurde beispielsweise die Diagnose einer Übertragung anstelle einer Terminüberschreitung angegeben. Eine Übertragung liegt im deutschsprachigen Raum per definitionem erst ab 42+0 SSW vor. Der Einleitungszeitpunkt wurde von ChatGPT unterschiedlich vorgegeben. In der ersten Reaktion gab ChatGPT an, dass eine Einleitung mit 41+1 SSW erwogen werden kann. Diese Aussage war gemäß der Leitlinie mit einer „Soll-Empfehlung“ vertretbar, allerdings äußerte ChatGPT in der Zusammenfassung, dass die Einleitung sofort erfolgen sollte. Daher wurde nur einer von zwei möglichen Punkten vergeben. Die Vorgaben in der SOP der Geburtshilfe konnten hingegen korrekt erfasst werden.

Auch den Fall mit dem Gestationsdiabetes konnte ChatGPT sehr gut beantworten. Lediglich die Fragen nach der Möglichkeit einer ambulanten Geburtseinleitung wurde von ChatGPT nur sehr allgemein beantwortet. Da es zu diesen Fragen jedoch auch keine konkreten Empfehlungen in der Leitlinie und SOP gab, konnte keine genaue Angabe gemacht werden.

Mit 6 von 10 Punkten waren die Antworten zum Fall mit „Zustand nach Sectio“ akzeptabel. Kritisch ist für diesen fiktiven Fall, dass von der KI eine Geburtseinleitung mit 37+0 SSW vorgeschlagen wurde, wofür es keine entsprechende Grundlage gab. Zudem wurde die Option einer ambulanten Geburt dargestellt, welche zum aktuellen Zeitpunkt eher kritisch gesehen wird. Hierzu gab es aber in den vorgelegten Empfehlungen keine explizite Empfehlung oder Kontraindikation, so dass dies als Fehlinterpretation zu werten war.

Der Fall mit der missed abortion wurde von ChatGPT unzureichend erfasst. Lediglich die Diagnosestellung war richtig. Trotz konkreter Anwendungsempfehlungen in der Leitlinie wurden diese von der KI nicht präsentiert. Dies weist auf ein reales Fehlerpotenzial einer reinen KI-basierten Entscheidungsfindung hin.

Der letzte Fall mit einer Geminigravidität wurde von ChatGPT wiederum sehr gut erfasst, auch wenn von der KI in bestimmten Punkten nur allgemeingültige Antworten präsentiert wurden.

Zusammenfassend zeigen vor allem die letzten beiden Fälle ein aktuelles und weitreichendes Problem auf. Unklare oder fehlende Angaben in Leitlinien können dazu führen, dass einerseits ebenfalls keine klaren Vorgaben von der KI präsentiert werden oder im schlechtesten Fall sogar nichtexistierende Empfehlungen als solche vorgeschlagen werden. Die getroffenen Aussagen von ChatGPT waren stets kritisch zu beurteilen.

Insgesamt wirken die Aussagen von ChatGPT allgemeingehalten und fachlich größtenteils korrekt. Von einer alleinigen KI-basierten Entscheidungsfindung ist abzuraten, da falsche oder kontroverse Empfehlungen vorgegeben werden können. Diese Einschätzung nach der Analyse dieser Untersuchung steht im Einklang mit den Schlussfolgerungen anderer Autoren. In den meisten Arbeiten war die Nutzbarkeit derzeit zwar klar ersichtlich und als zukunftsträchtig bewertet worden, jedoch wurden nicht selten nur allgemeingültige oder fehlerhafte Aussagen getroffen [11]. Ungeachtet dessen wird die Verwendung von KI in Bezug auf medizinische Fragestellungen zukünftig an Relevanz gewinnen, da sie der breiten Masse zur Verfügung stehen [5]. Es muss jedoch aufgrund der Fehleranfälligkeit immer auf die Notwendigkeit einer Supervision von Fachpersonal hingewiesen werden. Weiterhin ist aufgefallen, dass die technischen Abläufe noch nicht ausgereift sind. Bei der Verarbeitung von mehreren Dateien im System kam es häufig zu einem Abbruch des Chats. Des Weiteren ist ChatGPT 4.0 derzeit noch auf 40 Chats alle 3 Stunden begrenzt, sodass größere Abfragen zu mehrfachen Unterbrechungen im Arbeitsprozess führten. Konflikte in der Bereitstellung medizinischer Informationen traten dann nicht auf, wenn explizit darauf hingewiesen wurde, dass nur Informationen aus den Leitlinien und der SOP wiederzugeben waren. In weiteren Untersuchungen sollte daher die Optimierung der spezifischen Fragestellung an den Chatbot als wichtiges Element angestrebt werden. Die Fähigkeit von ChatGPT, Dateien im PDF- und Word-Format zu lesen, ist bereits jetzt als sehr gut einzuschätzen.

Der Wert der Informationen, die ein KI-gestützter Chatbots ausgeben kann, wird maßgeblich durch die ihm zur Verfügung stehenden Informationen beeinflusst. Das Problem schlecht zugeführter Informationen beschreiben Lukac et al. als „Garbage In – Garbage out“-Problematik [11]. Es muss daher weiterhin das Ziel sein, Handlungsempfehlungen in Leitlinien und SOP klar und unmissverständlich zu formulieren. Die Forschung zur KI-Anwendung in der Medizin ist noch am Anfang, weshalb weitere Arbeiten mit klaren Fragestellungen unverzichtbar sind.


Schlussfolgerung

ChatGPT stellt bereits jetzt eine einfach zugängliche, einfach zu bedienende Plattform für künstliche Intelligenz dar. Die kontinuierliche Weiterentwicklung über die vergangenen Monate zeigt, dass das volle Potenzial von ChatGPT derzeit noch nicht vollständig ausgeschöpft ist. Die Anwendung von ChatGPT in Bezug auf medizinische Fragestellungen sollte zunächst nur im Studiensetting unter Supervision eines fachkundigen Arztes erfolgen. Eine Einordnung der Informationen aus Chatverläufen mit KI ist für Laien nicht möglich. Die Erwartung einer individuellen, unmissverständlichen und korrekten medizinischen Auskunft durch Chatbots wie ChatGPT kann aktuell nicht erfüllt werden.



Interessenkonflikt

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.


Korrespondenzadresse

Simon Bader
Frauenklinik, Universitätsklinikum Erlangen
Universitätsstraße 21-23
91054 Erlangen
Germany   

Publication History

Received: 28 March 2024

Accepted after revision: 03 September 2024

Article published online:
14 October 2024

© 2024. Thieme. All rights reserved.

Georg Thieme Verlag KG
Rüdigerstraße 14, 70469 Stuttgart, Germany


Zoom
Abb. 1 Beispiel eines Chat-Verlaufs mit ChatGPT.
Zoom
Abb. 2 Fall: 1 Terminüberschreitung.
Zoom
Abb. 3 Fall 2: Gestationsdiabetes.
Zoom
Abb. 4 Fall 3: Z.n. Sectio.
Zoom
Abb. 5 Fall 4: missed abortion.
Zoom
Abb. 6 Fall 5: Geminigravidität.