Sequential Data-Based Patient Similarity Framework for Patient Outcome Prediction: Algorithm Development

Ni Wang; Muyu Wang; Yang Zhou; Honglei Liu; Lan Wei; Xiaolu Fei; Hui Chen

doi:10.2196/30720

Sequential Data-Based Patient Similarity Framework for Patient Outcome Prediction: Algorithm Development

J Med Internet Res. 2022 Jan 6;24(1):e30720. doi: 10.2196/30720.

Authors

Ni Wang^{1

2}, Muyu Wang^{1

2}, Yang Zhou³, Honglei Liu^{1

2}, Lan Wei⁴, Xiaolu Fei⁴, Hui Chen^{1

2}

Affiliations

¹ School of Biomedical Engineering, Capital Medical University, Beijing, China.
² Beijing Advanced Innovation Center for Big Data-based Precision Medicine, Capital Medical University, Beijing, China.
³ Department of Epidemiology and Biostatistics, Institute of Basic Medical Sciences Chinese Academy of Medical Sciences, School of Basic Medicine, Peking Union Medical College, Beijing, China.
⁴ Information Center, Xuanwu Hospital, Capital Medical University, Beijing, China.

PMID: 34989682
PMCID: PMC8778569
DOI: 10.2196/30720

Abstract

Background: Sequential information in electronic medical records is valuable and helpful for patient outcome prediction but is rarely used for patient similarity measurement because of its unevenness, irregularity, and heterogeneity.

Objective: We aimed to develop a patient similarity framework for patient outcome prediction that makes use of sequential and cross-sectional information in electronic medical record systems.

Methods: Sequence similarity was calculated from timestamped event sequences using edit distance, and trend similarity was calculated from time series using dynamic time warping and Haar decomposition. We also extracted cross-sectional information, namely, demographic, laboratory test, and radiological report data, for additional similarity calculations. We validated the effectiveness of the framework by constructing k-nearest neighbors classifiers to predict mortality and readmission for acute myocardial infarction patients, using data from (1) a public data set and (2) a private data set, at 3 time points-at admission, on Day 7, and at discharge-to provide early warning patient outcomes. We also constructed state-of-the-art Euclidean-distance k-nearest neighbor, logistic regression, random forest, long short-term memory network, and recurrent neural network models, which were used for comparison.

Results: With all available information during a hospitalization episode, predictive models using the similarity model outperformed baseline models based on both public and private data sets. For mortality predictions, all models except for the logistic regression model showed improved performances over time. There were no such increasing trends in predictive performances for readmission predictions. The random forest and logistic regression models performed best for mortality and readmission predictions, respectively, when using information from the first week after admission.

Conclusions: For patient outcome predictions, the patient similarity framework facilitated sequential similarity calculations for uneven electronic medical record data and helped improve predictive performance.

Keywords: acute myocardial infarction; deep learning; electronic medical records; health data; informatics; machine learning; natural language processing; outcome prediction; patient similarity; time series.

©Ni Wang, Muyu Wang, Yang Zhou, Honglei Liu, Lan Wei, Xiaolu Fei, Hui Chen. Originally published in the Journal of Medical Internet Research (https://www.jmir.org), 06.01.2022.

Publication types

Research Support, Non-U.S. Gov't

MeSH terms

Algorithms*
Cluster Analysis
Cross-Sectional Studies
Electronic Health Records*
Humans
Neural Networks, Computer
Patient Readmission