Saltar al contenido principal
Alan Zambrano
2020—2021·NLP & Social Listening·~18 meses

Monitoreo de Twitter para vigilancia epidemiológica de COVID-19

Sistema de social listening para vigilancia epidemiológica de COVID-19 en CDMX durante la pandemia. Pipelines de NLP y análisis de sentimiento sobre Twitter en tiempo real, con dashboards geoespaciales para la toma de decisiones sanitarias. Investigación publicada en la 11th TEPHINET Regional Scientific Conference of the Americas (2021).

Cliente: Unidad de Inteligencia Epidemiológica y Sanitaria (UIES)

🐦
TEPHINETConferencia científica
CDMXCobertura geoespacial
NLPSocial listening

El contexto

Durante el pico de la pandemia COVID-19, la Unidad de Inteligencia Epidemiológica y Sanitaria necesitaba señales tempranas de alerta que complementaran los canales oficiales de reporte. Las redes sociales — particularmente Twitter — funcionaban como un sensor en tiempo real del estado emocional, sintomatológico y de movilidad de la población en CDMX.

El reto técnico

Construir un pipeline que procesara el stream público de Twitter en español mexicano, filtrara tweets relevantes a síntomas y percepción de la pandemia, aplicara análisis de sentimiento y georreferenciara la información a nivel de alcaldía. Todo para alimentar a las autoridades sanitarias con inteligencia accionable, no solo con reportes.

La solución

Pipeline ETL en Python para ingesta continua de Twitter API, filtrado por keywords epidemiológicas y geolocalización en CDMX. Modelos de NLP para clasificación de tweets (síntomas, percepción, movilidad) y análisis de sentimiento sobre español mexicano. Procesamiento estadístico en R para correlacionar señales de Twitter con indicadores epidemiológicos oficiales. Dashboards geoespaciales en Shiny + Leaflet con mapas de calor por alcaldía, complementados con vistas ejecutivas en Tableau.

PythonRNLPTwitter APILeafletShinyTableauOpenShift

Decisiones clave

  • Modelar NLP sobre español mexicano en lugar de reciclar modelos genéricos en inglés — el vocabulario pandémico era regional.
  • Georreferenciar a nivel de alcaldía para que los dashboards sirvieran a la toma de decisiones locales, no solo agregados nacionales.
  • Correlacionar señales de redes sociales con indicadores oficiales para validar la utilidad epidemiológica, no solo el volumen.
  • Usar Shiny + Leaflet para prototipar rápido con los epidemiólogos en vez de esperar ciclos largos de BI.

Resultados

La investigación fue publicada en la 11th TEPHINET Regional Scientific Conference of the Americas (2021), aportando evidencia sobre la utilidad de redes sociales como sensor complementario en vigilancia epidemiológica. Los dashboards sirvieron como insumo para la estrategia de contención durante la pandemia en CDMX.

Mi rol

Data Scientist responsable del pipeline de ingesta, los modelos de NLP y análisis de sentimiento, y los dashboards geoespaciales. Co-autoría de la publicación presentada en TEPHINET 2021.

Lo que aprendí

Las redes sociales son un sensor ruidoso pero temprano. La clave no es confiar en el volumen bruto, sino correlacionar sus señales con fuentes oficiales para validar cuándo son predictivas. En crisis sanitarias, llegar temprano con una señal imperfecta es más valioso que llegar tarde con una perfecta.

Recursos relacionados con este caso:

¿Quieres algo similar para tu organización?

Hablemos de tu proyecto. Respondo en menos de 24 horas.