Zusammenfassung
Ziel Läsionsbezogene Überprüfung der diagnostischen Wertigkeit eines individuellen Algorithmus
künstlicher Intelligenz (KI) in der Dignitätsbewertung von mammografisch detektierten
und histologisch abgeklärten Mikroverkalkungen.
Material und Methoden Die retrospektive Studie umfasste 634 Frauen mit abgeschlossener invasiver Abklärungsdiagnostik
aufgrund von Mikroverkalkungen einer Mammografie-Screening-Einheit (Juli 2012 – Juni
2018). Das KI-System berechnete für jede Läsion einen Score zwischen 0 und 98. Scores
> 0 wurden als KI-positiv betrachtet. Die KI-Performance wurde läsionen-spezifisch
auf Basis des positiven prädiktiven Werts der umgesetzten invasiven Abklärungsdiagnostik
(PPV3), der Rate falsch negativer und richtig negativer KI-Bewertungen evaluiert.
Ergebnisse Der PPV3 stieg über die Befundstufen an (Befunder: 4a: 21,2 %, 4b: 57,7 %, 5: 100 %,
gesamt 30,3 %; KI: 4a: 20,8 %, 4b: 57,8 %, 5: 100 %, gesamt: 30,7 %). Die Rate falsch
negativer KI-Bewertungen lag bei 7,2 % (95 %-CI: 4,3 %, 11,4 %), die Rate richtig
negativer KI-Bewertungen bei 9,1 % (95 %-CI: 6,6 %, 11,9 %). Diese Raten waren mit
12,5 % bzw. 10,4 % in der Befundstufe 4a am größten. Im Median war der KI-Score für
benigne Läsionen am geringsten (61, Interquartilsabstand [IQR]: 45–74) und für invasive
Mammakarzinome am höchsten (81, IQR: 64–86). Mediane Scores für das duktale Carcinoma
in situ waren: 74 beim geringen (IQR: 63–84), 70 (IQR: 52–79) beim intermediären und
74 (IQR: 66–83) beim hohen Kernmalignitätsgrad.
Schlussfolgerung Bei niedrigster Schwelle führt die Mikrokalk-bezogene KI-Bewertung zu einem zur menschlichen
Bewertung vergleichbaren Anstieg des PPV3 über die Befundstufen. Der größte KI-bezogene
Verlust an Brustkrebsdetektionen liegt bei geringstgradig suspekten Mikroverkalkungen
vor mit einer vergleichbaren Einsparung falsch positiver invasiver Abklärungen. Eine
Score-bezogene Stratifizierung maligner Läsionen lässt sich nicht ableiten.
Kernaussagen:
-
Der PPV3 der Mikrokalkabklärung ist unter KI-Bewertung vergleichbar zur menschlichen
Bewertung.
-
Die Befundstufe 4a unterliegt der ausgeprägtesten KI-induzierten Minderung Screening-positiver
sowie Screening-negativer Läsionen.
-
Die Score-Werte diskriminieren keine Subgruppen histologischer Läsionen.
Zitierweise
Abstract
Purpose Lesion-related evaluation of the diagnostic performance of an individual artificial
intelligence (AI) system to assess mamographically detected and histologically proven
calcifications.
Materials and Methods This retrospective study included 634 women of one screening unit (July 2012 – June
2018) who completed the invasive assessment of calcifications. For each leasion, the
AI-system calculated a score between 0 and 98. Lesions scored > 0 were classified
as AI-positive. The performance of the system was evaluated based on its positive
predictive value of invasive assessment (PPV3), the false-negative rate and the true-negative
rate.
Results The PPV3 increased across the categories (readers: 4a: 21.2 %, 4b: 57.7 %, 5: 100 %,
overall 30.3 %; AI: 4a: 20.8 %, 4b: 57.8 %, 5: 100 %, overall: 30.7 %). The AI system
yielded a false-negative rate of 7.2 % (95 %-CI: 4.3 %: 11.4 %) and a true-negative
rate of 9.1 % (95 %-CI: 6.6 %; 11.9 %). These rates were highest in category 4a, 12.5 %
and 10.4 % retrospectively. The lowest median AI score was observed for benign lesions
(61, interquartile range (IQR): 45–74). Invasive cancers yielded the highest median
AI score (81, IQR: 64–86). Median AI scores for ductal carcinoma in situ were: 74 (IQR:
63–84) for low grade, 70 (IQR: 52–79) for intermediate grade and 74 (IQR: 66–83) for
high grade.
Conclusion At the lowest threshold, the AI system yielded calcification-related PPV3 values
that increased across categories, similar as seen in human evaluation. The strongest
loss in AI-based breast cancer detection was observed for invasively assessed calcifications
with the lowest suspicion of malignancy, yet with a comparable decrease in the false-positive
rate. An AI-score based stratification of malignant lesions could not be determined.
Key Points:
-
The AI-based PPV3 for calcifications is comparable to human assessment.
-
AI showed a lower detection performance of screen-positive and screen-negative lesions
in category 4a.
-
Histological subgroups could not be discriminated by AI scores.
Citation Format
Key words
breast cancer - mammography screening - artificial intelligence - breast calcifications
- positive predictive value - ductal carcinoma in situ