Prediction of tuberculosis clusters in the riverine municipalities of the Brazilian Amazon with machine learning

Rev Bras Epidemiol. 2024 May 13:27:e240024. doi: 10.1590/1980-549720240024. eCollection 2024.

Abstract

Objective: Tuberculosis (TB) is the second most deadly infectious disease globally, posing a significant burden in Brazil and its Amazonian region. This study focused on the "riverine municipalities" and hypothesizes the presence of TB clusters in the area. We also aimed to train a machine learning model to differentiate municipalities classified as hot spots vs. non-hot spots using disease surveillance variables as predictors.

Methods: Data regarding the incidence of TB from 2019 to 2022 in the riverine town was collected from the Brazilian Health Ministry Informatics Department. Moran's I was used to assess global spatial autocorrelation, while the Getis-Ord GI* method was employed to detect high and low-incidence clusters. A Random Forest machine-learning model was trained using surveillance variables related to TB cases to predict hot spots among non-hot spot municipalities.

Results: Our analysis revealed distinct geographical clusters with high and low TB incidence following a west-to-east distribution pattern. The Random Forest Classification model utilizes six surveillance variables to predict hot vs. non-hot spots. The machine learning model achieved an Area Under the Receiver Operator Curve (AUC-ROC) of 0.81.

Conclusion: Municipalities with higher percentages of recurrent cases, deaths due to TB, antibiotic regimen changes, percentage of new cases, and cases with smoking history were the best predictors of hot spots. This prediction method can be leveraged to identify the municipalities at the highest risk of being hot spots for the disease, aiding policymakers with an evidenced-based tool to direct resource allocation for disease control in the riverine municipalities.

Objetivo:: A tuberculose (TB) é a segunda doença infecciosa que mais mata no mundo, representando um problema de saúde pública no Brasil, especialmente na região amazônica. Este estudo analisa a TB nos municípios ribeirinhos” com o objetivo de identificar aglomerados de alta incidência, também conhecidos como “hot spots”. Posteriormente, utilizando aprendizagem de máquina, visamos prever estes aglomerados por meio de variáveis de vigilância epidemiológica. Assim buscamos auxiliar o ente público no combate à TB nesta região.

Métodos:: Dados da incidência de TB nos “municípios ribeirinhos” foram coletados entre os anos de 2019 e 2022 do Departamento de Informática do Ministério da Saúde. O índice de Moran foi utilizado para a determinação de autocorrelação espacial global, enquanto o método Getis-Ord GI* foi empregado para a autocorrelação espacial local. Variáveis referentes ao diagnóstico, tratamento e características socioeconômicas associadas aos casos foram utilizadas para a predição de aglomerados de alta incidência por meio de um modelo Random Forest.

Resultados:: Foram identificados aglomerados com alta incidência de TB a oeste e baixa incidência a leste. O total de seis variáveis de vigilância epidemiológica foi identificado como relevante para a predição. Nosso modelo Random Forest alcança uma área sob a curva da característica operacional do receptor (AUC-ROC) de 0,81.

Conclusão:: Municípios com altas porcentagens de casos recorrentes, mortes por TB, mudança do esquema de tratamento, casos novos e casos com história de tabagismo estão associados a aglomerados de alta incidência. Esperamos que este método de identificação de possíveis aglomerados de TB seja útil para o ente público no combate à doença na região.

MeSH terms

  • Brazil / epidemiology
  • Cities / epidemiology
  • Cluster Analysis
  • Humans
  • Incidence
  • Machine Learning*
  • ROC Curve
  • Tuberculosis* / diagnosis
  • Tuberculosis* / epidemiology