Senologie - Zeitschrift für Mammadiagnostik und -therapie 2020; 17(02): e46
DOI: 10.1055/s-0040-1710739
Abstracts
Senologie

Künstliche Intelligenz in Ergänzung zur menschlichen Bewertung mammographischer Auffälligkeiten

S Weigel
1  Universität und Universitätsklinikum Münster, Institut für Klinische Radiologie, Münster, Deutschland
,
L Kerschke
2  Universität und Universitätsklinikum Münster, Institut für Biometrie und Klinische Forschung, Münster, Deutschland
,
A Rodriguez-Ruiz
3  ScreenPoint Medical BV, Nijmegen, Niederlande
,
N Karssemeijer
3  ScreenPoint Medical BV, Nijmegen, Niederlande
,
W Heindel
1  Universität und Universitätsklinikum Münster, Institut für Klinische Radiologie, Münster, Deutschland
› Author Affiliations
 

Zielsetzung Im deutschen Mammographie-Screening ist eine unabhängige Doppelbefundung obligat. Im Falle mindestens einer mammographischen Auffälligkeit beraten beide Befunder und der Programmverantwortliche Arzt, ob eine Einbestellung zur Abklärungsdiagnostik indiziert ist.

Ziel der Studie ist eine Validierung Künstlicher Intelligenz (KI) im gezielten Einsatz der Bewertung mammographischer Auffälligkeiten, die zur Empfehlung einer Abklärungsdiagnostik führten. Wünschenswert ist eine Steigerung der Spezifität ohne Minderung der Sensitivität.

Materialien und Methoden In die retrospektive Studie wurden aus 41.724 digitalen Screening-Untersuchungen (2011-2013) 2.257 Untersuchungen mit erfolgter Abklärungsdiagnostik eingeschlossen. Entsprechend den prospektiven Dokumentationen und Krebsregistermeldungen zu Intervallkarzinomen wurden 295 maligne und 2.289 benigne Läsionen geprüft. Mittels Transpara (ScreenPoint Medical) wurde ein Läsions-spezifischer Score (0-100) erhoben. Die diagnostische Genauigkeit wurde anhand eines Cut-Off-Wertes beurteilt, unter dem eine Verbesserung der Spezifität bei größtmöglicher Sensitivität erreicht wurde.

Ergebnisse KI erzielte eine Erhöhung der Spezifität von 11 % auf 39 % (Differenz: 28 %, 95 %CI: 26-30 %) bei Minderung der Sensitivität um 6 %. Eine hohe Genauigkeit wurde für Herdläsionen erreicht (Sensitivität: 99 %, Spezifität: 38 %). Der positive prädiktive Wert des Rückrufs stieg von 13 % auf 17 %. Falsch-negativ beurteilte Läsionen waren größtenteils durch niedrige Befundstufen (4a: 89 %, 4b: 11 %) charakterisiert. Je Befundstufe lag der Anteil falsch-negativer Einschätzungen bei 11 % (4a), 2 % (4b), 0 % (5).

Zusammenfassung Validierungen von Diagnosesoftware-Verfahren sind essentiell.

Der verwendete Datensatz weist eine hohe Güte bezüglich der Dignitätsstratifizierung auf.

Künstliche Intelligenz kann helfen, die Spezifität des Rückrufs zu erhöhen. Allerdings ist eine menschliche Prüfung bildmorphologischer Zeichen höheren Verdachtsgrades weiterhin erforderlich, um einzelne KI-resultierende falsch-negative Bewertungen zu vermeiden.



Publication History

Publication Date:
24 June 2020 (online)

© Georg Thieme Verlag KG
Stuttgart · New York