Comparing Twitter data to routine data sources in public health surveillance for the 2015 Pan/Parapan American Games: an ecological study

Can J Public Health. 2018 Jun;109(3):419-426. doi: 10.17269/s41997-018-0059-0. Epub 2018 Apr 20.

Abstract

Objectives: This study examined Twitter for public health surveillance during a mass gathering in Canada with two objectives: to explore the feasibility of acquiring, categorizing and using geolocated Twitter data and to compare Twitter data against other data sources used for Pan Parapan American Games (P/PAG) surveillance.

Methods: Syndrome definitions were created using keyword categorization to extract posts from Twitter. Categories were developed iteratively for four relevant syndromes: respiratory, gastrointestinal, heat-related illness, and influenza-like illness (ILI). All data sources corresponded to the location of Toronto, Canada. Twitter data were acquired from a publicly available stream representing a 1% random sample of tweets from June 26 to September 10, 2015. Cross-correlation analyses of time series data were conducted between Twitter and comparator surveillance data sources: emergency department visits, telephone helpline calls, laboratory testing positivity rate, reportable disease data, and temperature.

Results: The frequency of daily tweets that were classified into syndromes was low, with the highest mean number of daily tweets being for ILI and respiratory syndromes (22.0 and 21.6, respectively) and the lowest, for the heat syndrome (4.1). Cross-correlation analyses of Twitter data demonstrated significant correlations for heat syndrome with two data sources: telephone helpline calls (r = 0.4) and temperature data (r = 0.5).

Conclusion: Using simple syndromes based on keyword classification of geolocated tweets, we found a correlation between tweets and two routine data sources for heat alerts, the only public health event detected during P/PAG. Further research is needed to understand the role for Twitter in surveillance.

Objectifs: Cette étude a examiné Twitter aux fins de la surveillance de la santé publique lors d’un rassemblement de masse au Canada avec deux objectifs: étudier la faisabilité de l’acquisition, de la catégorisation et de l’utilisation des données géolocalisées de Twitter; et les comparer avec d’autres sources de données utilisées pour la surveillance des Jeux panaméricains et parapanaméricains (JPA/PPA).

Méthodologie: Les définitions des syndromes ont été créées à l’aide de catégories de mots-clés pour extraire les messages de Twitter. Les catégories ont été établies itérativement en fonction de quatre syndromes pertinents: respiratoire, gastro-intestinal, maladie liée à la chaleur et syndrome grippal (SG). Toutes les sources de données étaient localisées à Toronto, Canada. Les données de Twitter ont été recueillies à partir d’un échantillon aléatoire représentant 1% des messages publiés entre le 26 juin et le 10 septembre 2015. Des analyses de corrélation croisée des données chronologiques ont été effectuées entre Twitter et des sources de données comparatives de surveillance: visites aux urgences, appels aux services d’aide par téléphone, taux de positivité des tests de laboratoire, données sur les maladies à déclaration obligatoire et température.

Résultats: La fréquence des messages quotidiens classés en fonction des syndromes était faible: le plus grand nombre moyen de messages quotidiens concernait les syndromes grippaux et les syndromes respiratoires (22,0 et 21,6, respectivement) et le plus faible nombre moyen de messages quotidiens concernait le syndrome de chaleur (4,1). Les analyses de corrélation croisée des données de Twitter ont démontré des corrélations significatives du syndrome de la chaleur avec deux sources de données: les appels aux services d’aide par téléphone (r = 0,4) et les données concernant la température (r = 0,5).

Conclusion: En utilisant des syndromes simples fondés sur la classification par mot-clé des messages géolocalisés, nous avons constaté une corrélation entre les messages et deux sources de données courantes des alertes de chaleur, le seul événement de santé publique détecté pendant les JPA/PPA. Des recherches supplémentaires sont nécessaires afin de comprendre le rôle de Twitter aux fins de la surveillance.

Keywords: Emergency preparedness; Mass gatherings; Public health; Social media; Surveillance; Twitter.

Publication types

  • Comparative Study

MeSH terms

  • Canada
  • Crowding
  • Feasibility Studies
  • Humans
  • Public Health Surveillance / methods*
  • Social Media*
  • Sports*