[Artificial intelligence in ophthalmology : Guidelines for physicians for the critical evaluation of studies]

Maximilian Pfau; Guenther Walther; Leon von der Emde; Philipp Berens; Livia Faes; Monika Fleckenstein; Tjebo F C Heeren; Karsten Kortüm; Sandrine H Künzel; Philipp L Müller; Peter M Maloca; Sebastian M Waldstein; Maximilian W M Wintergerst; Steffen Schmitz-Valckenberg; Robert P Finger; Frank G Holz

doi:10.1007/s00347-020-01209-z

[Artificial intelligence in ophthalmology : Guidelines for physicians for the critical evaluation of studies]

Ophthalmologe. 2020 Oct;117(10):973-988. doi: 10.1007/s00347-020-01209-z.

[Article in German]

Authors

Maximilian Pfau^{1

2}, Guenther Walther³, Leon von der Emde⁴, Philipp Berens^{5

6}, Livia Faes^{7

8}, Monika Fleckenstein⁹, Tjebo F C Heeren⁸, Karsten Kortüm^{10

11}, Sandrine H Künzel⁴, Philipp L Müller^{4

5}, Peter M Maloca^{8

12

13}, Sebastian M Waldstein^{14

15}, Maximilian W M Wintergerst⁴, Steffen Schmitz-Valckenberg^{4

9}, Robert P Finger⁴, Frank G Holz⁴

Affiliations

¹ Department of Biomedical Data Science, Stanford University, Medical School Office Building (MSOB), 1265 Welch Road, 94305-5479, Stanford, CA, USA. maximilian.pfau@ukbonn.de.
² Universitäts-Augenklinik Bonn, Bonn, Deutschland. maximilian.pfau@ukbonn.de.
³ Department of Statistics, Stanford University, Stanford, USA.
⁴ Universitäts-Augenklinik Bonn, Bonn, Deutschland.
⁵ Forschungsinstitut für Augenheilkunde, Universität Tübingen, Tübingen, Deutschland.
⁶ Interfakultäres Institut für Bioinformatik und Medizininformatik, Universität Tübingen, Tübingen, Deutschland.
⁷ Augenklinik, Luzerner Kantonsspital, Luzern, Schweiz.
⁸ Moorfields Eye Hopsital NHS Foundation Trust, London, Großbritannien.
⁹ John A. Moran Eye Center, University of Utah, Salt Lake City, USA.
¹⁰ Augenklinik, Ludwig-Maximilians-Universität München, München, Deutschland.
¹¹ Augenarztpraxis Dres. Kortüm, Ludwigsburg, Deutschland.
¹² Institute of Molecular and Clinical Ophthalmology Basel (IOB), Basel, Schweiz.
¹³ OCTlab, Universitätsspital Basel, Basel, Schweiz.
¹⁴ Univ.-Klinik für Augenheilkunde und Optometrie, Medizinische Universität Wien, Wien, Österreich.
¹⁵ Department of Ophthalmology, Westmead Hospital, University of Sydney, Sydney, Australien.

PMID: 32857270
DOI: 10.1007/s00347-020-01209-z

Abstract
in English, German

Background: Empirical models have been an integral part of everyday clinical practice in ophthalmology since the introduction of the Sanders-Retzlaff-Kraff (SRK) formula. Recent developments in the field of statistical learning (artificial intelligence, AI) now enable an empirical approach to a wide range of ophthalmological questions with an unprecedented precision.

Objective: Which criteria must be considered for the evaluation of AI-related studies in ophthalmology?

Material and methods: Exemplary prediction of visual acuity (continuous outcome) and classification of healthy and diseased eyes (discrete outcome) using retrospectively compiled optical coherence tomography data (50 eyes of 50 patients, 50 healthy eyes of 50 subjects). The data were analyzed with nested cross-validation (for learning algorithm selection and hyperparameter optimization).

Results: Based on nested cross-validation for training, visual acuity could be predicted in the separate test data-set with a mean absolute error (MAE, 95% confidence interval, CI of 0.142 LogMAR [0.077; 0.207]). Healthy versus diseased eyes could be classified in the test data-set with an agreement of 0.92 (Cohen's kappa). The exemplary incorrect learning algorithm and variable selection resulted in an MAE for visual acuity prediction of 0.229 LogMAR [0.150; 0.309] for the test data-set. The drastic overfitting became obvious on comparison of the MAE with the null model MAE (0.235 LogMAR [0.148; 0.322]).

Conclusion: Selection of an unsuitable measure of the goodness-of-fit, inadequate validation, or withholding of a null or reference model can obscure the actual goodness-of-fit of AI models. The illustrated pitfalls can help clinicians to identify such shortcomings.

Zusammenfassung: HINTERGRUND: Empirische Modelle sind seit Einführung der SRK(Sanders-Retzlaff-Kraff)-Formel im klinischen Alltag der Augenheilkunde etabliert. Rezente Entwicklungen im Bereich des statistischen Lernens („künstliche Intelligenz“ [KI]) ermöglichen jetzt ein empirisches Vorgehen für vielfältigste ophthalmologische Fragestellungen bei bislang unerreichter Präzision.

Fragestellung: Welche Kriterien müssen für die Bewertung von Arbeiten zum Thema KI in der Augenheilkunde berücksichtigt werden?

Material und methoden: Es erfolgen die beispielhafte Vorhersage des Visus (stetige Zielgröße) und Klassifikation von gesunden und kranken Augen (diskrete Zielgröße) anhand von retrospektiven optischen Kohärenztomographiebilddaten (50 Augen von 50 Patienten, 50 gesunde Augen von 50 Probanden). Die Daten wurden mit verschachtelter Kreuzvalidierung (zur Lernalgorithmusauswahl und Hyperparameteroptimierung) analysiert.

Ergebnisse: Durch verschachtelte Kreuzvalidierung ließ sich der Visus im separaten Testdatensatz mit einem mittleren absoluten Fehler (MAE, [95 %-CI, Konfidenzintervall]) von 0,142 LogMAR [0,077; 0,207] vorhersagen. Kranke und gesunde Augen ließen sich im Testdatensatz mit einer Konkordanz von (Kappa nach Cohen) 0,92 klassifizieren. Die beispielhafte inkorrekte Lernalgorithmus- und Variablenauswahl resultierte in einem MAE von 0,229 LogMAR [0,150; 0,309] für den Testdatensatz. Erst durch Vergleich mit dem MAE des Nullmodells (0,235 LogMAR [0,148; 0,322]) wurde die Überanpassung offensichtlich.

Schlussfolgerungen: Die Auswahl einer ungeeigneten Kennzahl für die Anpassungsgüte, inadäquate Validierung oder Unterschlagen eines Null- oder Referenzmodells kann die tatsächliche Anpassungsgüte von KI-Modellen verschleiern. Die illustrierten Fallstricke können Klinikern und Forschern helfen, solche Unzulänglichkeiten zu erkennen.

Keywords: Automated analysis; Deep learning; Empirical approach; Machine-learning; Statistical learning.

Publication types

Review

MeSH terms

Artificial Intelligence*
Biometry
Humans
Ophthalmology*
Retrospective Studies
Visual Acuity

Abstract in English, German

Publication types

MeSH terms

Abstract
in English, German