Subscribe to RSS
DOI: 10.1055/s-0045-1802787
Fehlererkennung in Radiologischen Befundberichten: Eine Vergleichsanalyse zwischen kommerziellen Closed-source- und datenschutzkonformen Open-Source-Large Language-Modellen
Zielsetzung Large Language Modelle (LLMs) wie der Generative Pre-trained Transformer 4 (GPT-4) können dabei helfen, Fehler in radiologischen Befunden zu erkennen, jedoch schränken Datenschutzbedenken ihre klinische Anwendbarkeit ein. Diese Studie vergleicht Closed-source (CS)- und datenschutzkonforme Open-Source (OS)-LLMs hinsichtlich ihrer Fähigkeit, häufige Fehler in radiologischen Befunden zu identifizieren.
Material und Methoden Insgesamt wurden 120 radiologische Befunde zusammengestellt (jeweils 30 von Röntgen, Ultraschall, CT und MRT). In 100 dieser Befunde wurden 397 Fehler aus fünf Fehlerkategorien (typografische Fehler, numerische Fehler, Diskrepanzen zwischen Befund und Interpretation, Auslassung/Einfügung, Interpretationsfehler) eingefügt; 20 Befunde blieben unverändert. Zwei kommerzielle CS-Modelle (GPT-4, GPT-4o) und zwei OS-Modelle (Llama 3-70b, Mixtral 8x22b) wurden mit identischen Eingabeaufforderungen zur Fehlererkennung beauftragt. Für die statistische Analyse wurden der Kruskal-Wallis-Test und der gepaarte t-Test verwendet.
Ergebnisse OS-LLMs benötigten weniger Verarbeitungszeit pro radiologischem Befund als die CS-LLMs (6±2 s vs. 13±4 s; p<.001). CS-LLMs erzielten höhere Fehlererkennungsraten als Open-Source-LLMs (GPT-4o: 88% [348/397; 95%CI: 80, 87], GPT-4: 83% [328/397; 95%CI: 86, 92], Llama 3-70b: 82% [311/397; 95%CI: 76, 83], Mixtral 8x22b: 68% [288/397; 95%CI: 68, 77]; p<.001). Numerische Fehler (88% [67/76; 95%CI: 82, 93]) wurden signifikant häufiger erkannt als typografische Fehler (75% [65/86; 95%CI: 68, 82]; p=.018), Diskrepanzen zwischen Befund und Interpretation (73% [73/101; 95%CI: 67, 80]; p=.003), sowie Interpretationsfehler (70% [50/71; 95%CI: 62, 78]; p=.001).
Schlussfolgerungen OS-LLMs zeigten eine effektive Fehlererkennung, jedoch mit vergleichsweise geringerer Genauigkeit als derzeit verfügbare kommerzielle CS-Modelle. Sie bieten Potenzial für Anwendung im klinischen Alltag, wenn sie datenschutzkonform über lokal gehostete Lösungen bereitgestellt werden.
#
Publication History
Article published online:
25 March 2025
© 2025. Thieme. All rights reserved.
Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany