Artificial Intelligence for Indication of Invasive Assessment of Calcifications in Mammography Screening

Rofo. 2023 Jan;195(1):38-46. doi: 10.1055/a-1967-1443. Epub 2023 Jan 1.
[Article in English, German]

Abstract

Purpose: Lesion-related evaluation of the diagnostic performance of an individual artificial intelligence (AI) system to assess mamographically detected and histologically proven calcifications.

Materials and methods: This retrospective study included 634 women of one screening unit (July 2012 - June 2018) who completed the invasive assessment of calcifications. For each leasion, the AI-system calculated a score between 0 and 98. Lesions scored > 0 were classified as AI-positive. The performance of the system was evaluated based on its positive predictive value of invasive assessment (PPV3), the false-negative rate and the true-negative rate.

Results: The PPV3 increased across the categories (readers: 4a: 21.2 %, 4b: 57.7 %, 5: 100 %, overall 30.3 %; AI: 4a: 20.8 %, 4b: 57.8 %, 5: 100 %, overall: 30.7 %). The AI system yielded a false-negative rate of 7.2 % (95 %-CI: 4.3 %: 11.4 %) and a true-negative rate of 9.1 % (95 %-CI: 6.6 %; 11.9 %). These rates were highest in category 4a, 12.5 % and 10.4 % retrospectively. The lowest median AI score was observed for benign lesions (61, interquartile range (IQR): 45-74). Invasive cancers yielded the highest median AI score (81, IQR: 64-86). Median AI scores for ductal carcinoma in situ were: 74 (IQR: 63-84) for low grade, 70 (IQR: 52-79) for intermediate grade and 74 (IQR: 66-83) for high grade.

Conclusion: At the lowest threshold, the AI system yielded calcification-related PPV3 values that increased across categories, similar as seen in human evaluation. The strongest loss in AI-based breast cancer detection was observed for invasively assessed calcifications with the lowest suspicion of malignancy, yet with a comparable decrease in the false-positive rate. An AI-score based stratification of malignant lesions could not be determined.

Key points: · The AI-based PPV3 for calcifications is comparable to human assessment.. · AI showed a lower detection performance of screen-positive and screen-negative lesions in category 4a.. · Histological subgroups could not be discriminated by AI scores..

Citation format: · Weigel S, Brehl AK, Heindel W et al. Artificial Intelligence for Indication of Invasive Assessment of Calcifications in Mammography Screening. Fortschr Röntgenstr 2023; 195: 38 - 46.

ZIEL: Läsionsbezogene Überprüfung der diagnostischen Wertigkeit eines individuellen Algorithmus künstlicher Intelligenz (KI) in der Dignitätsbewertung von mammografisch detektierten und histologisch abgeklärten Mikroverkalkungen.

Material und methoden: Die retrospektive Studie umfasste 634 Frauen mit abgeschlossener invasiver Abklärungsdiagnostik aufgrund von Mikroverkalkungen einer Mammografie-Screening-Einheit (Juli 2012 – Juni 2018). Das KI-System berechnete für jede Läsion einen Score zwischen 0 und 98. Scores > 0 wurden als KI-positiv betrachtet. Die KI-Performance wurde läsionen-spezifisch auf Basis des positiven prädiktiven Werts der umgesetzten invasiven Abklärungsdiagnostik (PPV3), der Rate falsch negativer und richtig negativer KI-Bewertungen evaluiert.

Ergebnisse: Der PPV3 stieg über die Befundstufen an (Befunder: 4a: 21,2 %, 4b: 57,7 %, 5: 100 %, gesamt 30,3 %; KI: 4a: 20,8 %, 4b: 57,8 %, 5: 100 %, gesamt: 30,7 %). Die Rate falsch negativer KI-Bewertungen lag bei 7,2 % (95 %-CI: 4,3 %, 11,4 %), die Rate richtig negativer KI-Bewertungen bei 9,1 % (95 %-CI: 6,6 %, 11,9 %). Diese Raten waren mit 12,5 % bzw. 10,4 % in der Befundstufe 4a am größten. Im Median war der KI-Score für benigne Läsionen am geringsten (61, Interquartilsabstand [IQR]: 45–74) und für invasive Mammakarzinome am höchsten (81, IQR: 64–86). Mediane Scores für das duktale Carcinoma in situ waren: 74 beim geringen (IQR: 63–84), 70 (IQR: 52–79) beim intermediären und 74 (IQR: 66–83) beim hohen Kernmalignitätsgrad.

Schlussfolgerung: Bei niedrigster Schwelle führt die Mikrokalk-bezogene KI-Bewertung zu einem zur menschlichen Bewertung vergleichbaren Anstieg des PPV3 über die Befundstufen. Der größte KI-bezogene Verlust an Brustkrebsdetektionen liegt bei geringstgradig suspekten Mikroverkalkungen vor mit einer vergleichbaren Einsparung falsch positiver invasiver Abklärungen. Eine Score-bezogene Stratifizierung maligner Läsionen lässt sich nicht ableiten.

Kernaussagen: · Der PPV3 der Mikrokalkabklärung ist unter KI-Bewertung vergleichbar zur menschlichen Bewertung.. · Die Befundstufe 4a unterliegt der ausgeprägtesten KI-induzierten Minderung Screening-positiver sowie Screening-negativer Läsionen.. · Die Score-Werte diskriminieren keine Subgruppen histologischer Läsionen..

Zitierweise: · Weigel S, Brehl AK, Heindel W et al. Artificial Intelligence for Indication of Invasive Assessment of Calcifications in Mammography Screening. Fortschr Röntgenstr 2023; 195: 38 – 46.

MeSH terms

  • Artificial Intelligence
  • Breast Neoplasms* / diagnostic imaging
  • Calcinosis* / diagnostic imaging
  • Calcinosis* / pathology
  • Carcinoma, Intraductal, Noninfiltrating* / diagnostic imaging
  • Female
  • Humans
  • Mammography
  • Retrospective Studies