A new approach to categorising continuous variables in prediction models: Proposal and validation

Irantzu Barrio; Inmaculada Arostegui; María-Xosé Rodríguez-Álvarez; José-María Quintana

doi:10.1177/0962280215601873

A new approach to categorising continuous variables in prediction models: Proposal and validation

Stat Methods Med Res. 2017 Dec;26(6):2586-2602. doi: 10.1177/0962280215601873. Epub 2015 Sep 18.

Authors

Irantzu Barrio^{1

2}, Inmaculada Arostegui^{1

2

3}, María-Xosé Rodríguez-Álvarez⁴, José-María Quintana^{2

5}

Affiliations

¹ 1 Departamento de Matemática Aplicada, Estadística e Investigación Operativa, Universidad del País Vasco UPV/EHU, Leioa, Spain.
² 2 Red de Investigación en Servicios de Salud en Enfermedades Crónicas (REDISSEC), Galdakao, Spain.
³ 3 BCAM - Basque Center for Applied Mathematics, Bilbao, Spain.
⁴ 4 Departamento de Estadística e Investigación Operativa. Universidade de Vigo, Vigo, Spain.
⁵ 5 Unidad de Investigación, Hospital Galdakao-Usansolo, Galdakao, Spain.

PMID: 26384514
DOI: 10.1177/0962280215601873

Abstract

When developing prediction models for application in clinical practice, health practitioners usually categorise clinical variables that are continuous in nature. Although categorisation is not regarded as advisable from a statistical point of view, due to loss of information and power, it is a common practice in medical research. Consequently, providing researchers with a useful and valid categorisation method could be a relevant issue when developing prediction models. Without recommending categorisation of continuous predictors, our aim is to propose a valid way to do it whenever it is considered necessary by clinical researchers. This paper focuses on categorising a continuous predictor within a logistic regression model, in such a way that the best discriminative ability is obtained in terms of the highest area under the receiver operating characteristic curve (AUC). The proposed methodology is validated when the optimal cut points' location is known in theory or in practice. In addition, the proposed method is applied to a real data-set of patients with an exacerbation of chronic obstructive pulmonary disease, in the context of the IRYSS-COPD study where a clinical prediction rule for severe evolution was being developed. The clinical variable PCO₂ was categorised in a univariable and a multivariable setting.

Keywords: Categorisation; cut point; prediction models; validation.

Publication types

Validation Study

MeSH terms

Algorithms
Area Under Curve
Biostatistics / methods*
Databases, Factual / statistics & numerical data
Decision Support Techniques
Humans
Logistic Models
Models, Statistical*
Pulmonary Disease, Chronic Obstructive / physiopathology
Pulmonary Disease, Chronic Obstructive / therapy
Sample Size
Severity of Illness Index
Software