Towards data-driven quantification of skin ageing using reflectance confocal microscopy

Int J Cosmet Sci. 2021 Aug;43(4):466-473. doi: 10.1111/ics.12720. Epub 2021 Jul 26.

Abstract

Introduction: Evaluation of skin ageing is a non-standardized, subjective process, with typical measures relying coarse, qualitatively defined features. Reflectance confocal microscopy depth stacks contain indicators of both chrono-ageing and photo-ageing. We hypothesize that an ageing scale could be constructed using machine learning and image analysis, creating a data-driven quantification of skin ageing without human assessment.

Methods: En-face sections of reflectance confocal microscopy depth stacks from the dorsal and volar forearm of 74 participants (36/18/20 training/testing/validation) were represented using a histogram of visual features learned using unsupervised clustering of small image patches. A logistic regression classifier was trained on these histograms to differentiate between stacks from 20- to 30-year-old and 50- to 70-year-old volunteers. The probabilistic output of the logistic regression was used as the fine-grained ageing score for that stack in the testing set ranging from 0 to 1. Evaluation was performed in two ways: on the test set, the AUC was collected for the binary classification problem as well as by statistical comparison of the scores for age and body site groups. Final validation was performed by assessing the accuracy of the ageing score measurement on 20 depth stacks not used for training or evaluating the classifier.

Results: The classifier effectively differentiated stacks from age groups with a test set AUC of 0.908. Mean scores were significantly different when comparing age groups (mean 0.70 vs. 0.44; t = -6.62, p = 0.0000) and also when comparing stacks from dorsal and volar body sites (mean 0.64 vs. 0.53; t = 3.12, p = 0.0062). On the final validation set, 17 out of 20 depth stacks were correctly labelled.

Discussion: Despite being limited to only coarse training information in the form of example stacks from two age groups, the trained classifier was still able to effectively discriminate between younger skin and older skin. Curiously, despite being only trained with chronological age, there was still evidence for measurable differences in age scores due to sun exposure-with marked differences in scores on sun-exposed dorsal sites of some volunteers compared with less sun-exposed volar sites. These results suggest that fine-grained data-driven quantification of skin ageing is achievable.

L’évaluation du vieillissement de la peau est un processus subjectif et non standardisé, dont les mesures typiques reposent sur des caractéristiques grossières et définies qualitativement. Les strates de profondeur observées grâce à la microscopie confocale par réflectance contiennent des indicateurs de chrono-vieillissement et de photo-vieillissement. Nous émettons l’hypothèse selon laquelle il serait possible d’établir une échelle de vieillissement à l’aide de l’apprentissage automatique et de l’analyse d’images, permettant la mise en place d’une quantification du vieillissement cutané fondée sur les données et sans évaluation humaine. MÉTHODES: À l’aide d’un histogramme des caractéristiques visuelles apprises à partir de petits ensembles d’images regroupées sans supervision, on a représenté des coupes faciales de strates de profondeur observées grâce à la microscopie confocale par réflectance et issues des faces dorsale et palmaire de l’avant-bras de 74 participants (36/18/20 entraînement/analyse/validation). Après un processus d’entraînement portant sur ces histogrammes, un classificateur de régression logistique a appris à différencier les strates prélevées sur des volontaires âgés de 20 à 30 ans et celles prélevées sur des volontaires âgés de 50 à 70 ans. Le résultat probabiliste de la régression logistique a été utilisé comme score du vieillissement de haute précision, allant de 0 à 1, pour cette strate dans l’ensemble d’analyse. L’évaluation a été effectuée de deux manières : dans l’ensemble d’analyse, l’aire sous la courbe (ASC) a été identifiée pour le problème de classification binaire ainsi que par comparaison statistique des scores selon les tranches d’âge et les catégories de site corporel. La validation finale est passée par une évaluation de l’exactitude de la mesure du score de vieillissement sur 20 strates de profondeur non utilisées dans le cadre du processus d’entraînement ou d’évaluation du classificateur. RÉSULTATS: Le classificateur différenciait efficacement les strates des tranches d’âge, avec une ASC dans l’ensemble d’analyse de 0,908. Les scores moyens affichaient des différences significatives lors de la comparaison entre les tranches d’âge (moyenne de 0,70 contre 0,44 ; t = 6,62 ; p = 0,0000) et lors de la comparaison entre les strates issues des faces dorsale et palmaire des sites corporels (moyenne de 0,64 contre 0,53 ; t = 3,12 ; p = 0,0062). Dans l’ensemble de validation finale, 17 strates sur 20 ont été correctement classées.

Keywords: automated image analysis; machine learning; photo-ageing; reflectance confocal microscopy; skin ageing.

MeSH terms

  • Adult
  • Aged
  • Female
  • Humans
  • Male
  • Microscopy, Confocal / methods*
  • Middle Aged
  • Skin Aging*
  • Young Adult