Auswirkungen des „dunklen Rand-Artefakts“ in dermatoskopischen Bildern auf die diagnostische Leistungsfähigkeit eines deep learning neuronalen Netzwerkes mit Marktzulassung

Katharina Sies; Julia K Winkler; Christine Fink; Felicitas Bardehle; Ferdinand Toberer; Felix K F Kommoss; Timo Buhl; Alexander Enk; Albert Rosenberger; Holger A Haenssle

doi:10.1111/ddg.14384_g

Auswirkungen des „dunklen Rand-Artefakts“ in dermatoskopischen Bildern auf die diagnostische Leistungsfähigkeit eines deep learning neuronalen Netzwerkes mit Marktzulassung

J Dtsch Dermatol Ges. 2021 Jun;19(6):842-851. doi: 10.1111/ddg.14384_g.

[Article in German]

Affiliations

¹ Abteilung Dermatologie, Universität Heidelberg.
² Abteilung Pathologie, Institut für Pathologie, Universitätsklinikum Heidelberg.
³ Klinik für Dermatologie, Venerologie und Allergologie, Universitätsmedizin Göttingen.
⁴ Abteilung für Genetische Epidemiologie, Universität Göttingen.

PMID: 34139087
DOI: 10.1111/ddg.14384_g

Abstract

Hintergrund und ziele: Systeme künstlicher Intelligenz (durch "deep learning" faltende neuronale Netzwerke; engl. convolutional neural networks, CNN) erreichen inzwischen bei der Klassifikation von Hautläsionen vergleichbar gute Ergebnisse wie Dermatologen. Allerdings müssen die Limitationen solcher Systeme vor flächendeckendem klinischem Einsatz bekannt sein. Daher haben wir den Einfluss des "dunklen Rand-Artefakts" (engl. dark corner artefact; DCA) in dermatoskopischen Bildern auf die diagnostische Leistung eines CNN mit Marktzulassung zur Klassifikation von Hautläsionen untersucht.

Patienten und methoden: Ein Datensatz aus 233 Bildern von Hautläsionen (60 maligne und 173 benigne) ohne DCA (Kontrolle) wurde digital so modifiziert, dass kleine, mittlere oder große DCA zu sehen waren. Alle 932 Bilder wurden dann mittels CNN mit Marktzulassung (Moleanalyzer-Pro^® , FotoFinder Systems) auf Malignitätsscores hin analysiert. Das Spektrum reichte von 0-1; ein Score von > 0,5 wurde als maligne klassifiziert.

Ergebnisse: In der Kontrollserie ohne DCA erreichte das CNN eine Sensitivität von 90,0 % (79,9 %-95,3 %), eine Spezifität von 96,5 % (92,6 %-98,4 %) sowie eine Fläche unter der Kurve (AUC, area under the curve) der "receiver operating characteristic" (ROC) von 0,961 (0,932-0,989). In den Datensätzen mit kleinen beziehungsweise mittleren DCA war die diagnostische Leistung vergleichbar. In den Bildersätzen mit großen DCA wurden allerdings signifikant höhere Malignitätsscores erzielt. Dies führte zu einer signifikant verminderten Spezifität (87,9 % [82,2 %-91,9 %], P < 0,001) sowie einer nicht signifikant erhöhten Sensitivität (96,7 % [88,6 %-99,1 %]). Die ROC-AUC blieb mit 0,962 (0,935-0,989) unverändert.

Schlussfolgerungen: Die Klassifizierung mittels des CNN war bei dermatoskopischen Bildern mit kleinen oder mittleren DCA nicht beeinträchtigt, das System zeigte jedoch Schwächen bei großen DCA. Wenn Ärzte solche Bilder zur Klassifikation mittels CNN einreichen, sollten sie sich dieser Grenzen der Technologie bewusst sein.

Publication types

English Abstract