Missing Data in Clinical Research: A Tutorial on Multiple Imputation

Can J Cardiol. 2021 Sep;37(9):1322-1331. doi: 10.1016/j.cjca.2020.11.010. Epub 2020 Dec 1.

Abstract

Missing data is a common occurrence in clinical research. Missing data occurs when the value of the variables of interest are not measured or recorded for all subjects in the sample. Common approaches to addressing the presence of missing data include complete-case analyses, where subjects with missing data are excluded, and mean-value imputation, where missing values are replaced with the mean value of that variable in those subjects for whom it is not missing. However, in many settings, these approaches can lead to biased estimates of statistics (eg, of regression coefficients) and/or confidence intervals that are artificially narrow. Multiple imputation (MI) is a popular approach for addressing the presence of missing data. With MI, multiple plausible values of a given variable are imputed or filled in for each subject who has missing data for that variable. This results in the creation of multiple completed data sets. Identical statistical analyses are conducted in each of these complete data sets and the results are pooled across complete data sets. We provide an introduction to MI and discuss issues in its implementation, including developing the imputation model, how many imputed data sets to create, and addressing derived variables. We illustrate the application of MI through an analysis of data on patients hospitalised with heart failure. We focus on developing a model to estimate the probability of 1-year mortality in the presence of missing data. Statistical software code for conducting MI in R, SAS, and Stata are provided.

Les données manquantes sont un phénomène courant dans le domaine de la recherche clinique, qui survient lorsque les résultats pour des variables d'intérêt ne sont pas mesurés ou consignés pour tous les sujets d'un échantillon. Les approches courantes adoptées pour pallier les données manquantes comprennent les analyses de cas complètes, dans lesquelles tous les sujets pour lesquels des données sont manquantes sont exclus de l'analyse, et l'imputation par la moyenne, dans laquelle les valeurs manquantes sont remplacées par la valeur moyenne rapportée pour cette variable chez les sujets chez lesquels ces résultats ont été recueillis. Toutefois, dans de nombreux contextes, ces approches peuvent donner lieu à des estimations biaisées des statistiques (p. ex. des coefficients de régression) ou à des intervalles de confiance artificiellement étroits. L'imputation multiple est une approche populaire pour remédier aux données manquantes. Selon cette méthode, des valeurs plausibles multiples pour une variable donnée sont attribuées ou imputées pour chacun des sujets pour lesquels les résultats pour ladite variable sont manquants. Il en résulte la création de multiples groupes de données complètes. Des analyses statistiques identiques sont effectuées à partir de chacun de ces groupes de données complètes, et les résultats sont regroupés pour les différents groupes de données complètes. Cet article offre une introduction à l'imputation multiple, et aborde les difficultés liées à son utilisation, notamment l’élaboration du modèle d'imputation, le nombre de groupes de données imputables à créer, et les variables dérivées qui doivent être considérées. L'application de l'imputation multiple sera illustrée au moyen d'une analyse des données pour des patients hospitalisés atteints d'insuffisance cardiaque. Le modèle suggéré aura pour objectif d'estimer la probabilité de mortalité à 1 an en présence de données manquantes. Les codes pour les logiciels statistiques utilisés pour l'imputation multiple (R, SAS et Stata) sont fournis.

Publication types

  • Research Support, Non-U.S. Gov't
  • Review

MeSH terms

  • Clinical Trials as Topic*
  • Data Interpretation, Statistical*
  • Humans
  • Research Design