A protocol for harvesting biodiversity data from Facebook

Conserv Biol. 2024 Mar 28:e14257. doi: 10.1111/cobi.14257. Online ahead of print.

Abstract

The expanding use of community science platforms has led to an exponential increase in biodiversity data in global repositories. Yet, understanding of species distributions remains patchy. Biodiversity data from social media can potentially reduce the global biodiversity knowledge gap. However, practical guidelines and standardized methods for harvesting such data are nonexistent. Following data privacy and protection safeguards, we devised a standardized method for extracting species distribution records from Facebook groups that allow access to their data. It involves 3 steps: group selection, data extraction, and georeferencing the record location. We present how to structure keywords, search for species photographs, and georeference localities for such records. We further highlight some challenges users might face when extracting species distribution data from Facebook and suggest solutions. Following our proposed framework, we present a case study on Bangladesh's biodiversity-a tropical megadiverse South Asian country. We scraped nearly 45,000 unique georeferenced records across 967 species and found a median of 27 records per species. About 12% of the distribution data were for threatened species, representing 27% of all species. We also obtained data for 56 DataDeficient species for Bangladesh. If carefully harvested, social media data can significantly reduce global biodiversity knowledge gaps. Consequently, developing an automated tool to extract and interpret social media biodiversity data is a research priority.

Un protocolo para recolectar datos sobre biodiversidad en Facebook Resumen El uso creciente de plataformas de ciencia comunitaria ha causado un incremento exponencial de los datos sobre biodiversidad en los repositorios mundiales. Sin embargo, el conocimiento sobre la distribución de las especies todavía está incompleto. Los datos sobre biodiversidad obtenidos de las redes sociales tienen el potencial para disminuir el vacío de conocimiento sobre la biodiversidad mundial. No obstante, no existe una guía práctica o un método estandarizado para recolectar dichos datos. Seguimos los protocolos de privacidad y protección de datos para diseñar un método estandarizado para extraer registros de la distribución de especies de grupos en Facebook que permiten el acceso a sus datos. El método consta de tres pasos: selección del grupo, extracción de datos y georreferenciación de la localidad registrada. También planteamos cómo estructurar las palabras clave, buscar fotografías de especies y georreferenciar las localidades de dichos registros. Además, resaltamos algunos retos que los usuarios pueden enfrentar al extraer los datos de distribución de Facebook y sugerimos algunas soluciones. Aplicamos nuestro marco de trabajo propuesto a un estudio de caso de la biodiversidad en Bangladesh, un país tropical megadiverso en el sureste de Asia. Reunimos casi 45,000 registros georreferenciados únicos para 967 especies y encontramos una media de 27 registros por especie. Casi el 12% de los datos de distribución correspondió a especies amenazadas, que representaban el 27% de todas las especies. También obtuvimos datos para 56 especies deficientes de datos en Bangladesh. Si los datos de las redes sociales se recolectan con cuidado, éstos pueden reducir de forma significativa el vacío de conocimiento para la biodiversidad mundial. Como consecuencia, es una prioridad para la investigación el desarrollo de una herramienta automatizada para extraer e interpretar los datos sobre biodiversidad de las redes sociales.

Keywords: Bangladesh; Facebook; Wallacean shortfall; ciencia ciudadana; citizen science; colaboración masiva; crowdsourcing; déficit wallaceano; iEcology; megadiverse countries; países megadiversos; redes sociales; social media; tropics; trópicos.