Monitoreo de Twitter para vigilancia epidemiológica de COVID-19
Sistema de social listening para vigilancia epidemiológica de COVID-19 en CDMX durante la pandemia. Pipelines de NLP y análisis de sentimiento sobre Twitter en tiempo real, con dashboards geoespaciales para la toma de decisiones sanitarias. Investigación publicada en la 11th TEPHINET Regional Scientific Conference of the Americas (2021).
Cliente: Unidad de Inteligencia Epidemiológica y Sanitaria (UIES)
El contexto
Durante el pico de la pandemia COVID-19, la Unidad de Inteligencia Epidemiológica y Sanitaria necesitaba señales tempranas de alerta que complementaran los canales oficiales de reporte. Las redes sociales — particularmente Twitter — funcionaban como un sensor en tiempo real del estado emocional, sintomatológico y de movilidad de la población en CDMX.
El reto técnico
Construir un pipeline que procesara el stream público de Twitter en español mexicano, filtrara tweets relevantes a síntomas y percepción de la pandemia, aplicara análisis de sentimiento y georreferenciara la información a nivel de alcaldía. Todo para alimentar a las autoridades sanitarias con inteligencia accionable, no solo con reportes.
La solución
Pipeline ETL en Python para ingesta continua de Twitter API, filtrado por keywords epidemiológicas y geolocalización en CDMX. Modelos de NLP para clasificación de tweets (síntomas, percepción, movilidad) y análisis de sentimiento sobre español mexicano. Procesamiento estadístico en R para correlacionar señales de Twitter con indicadores epidemiológicos oficiales. Dashboards geoespaciales en Shiny + Leaflet con mapas de calor por alcaldía, complementados con vistas ejecutivas en Tableau.
Decisiones clave
- →Modelar NLP sobre español mexicano en lugar de reciclar modelos genéricos en inglés — el vocabulario pandémico era regional.
- →Georreferenciar a nivel de alcaldía para que los dashboards sirvieran a la toma de decisiones locales, no solo agregados nacionales.
- →Correlacionar señales de redes sociales con indicadores oficiales para validar la utilidad epidemiológica, no solo el volumen.
- →Usar Shiny + Leaflet para prototipar rápido con los epidemiólogos en vez de esperar ciclos largos de BI.
Resultados
La investigación fue publicada en la 11th TEPHINET Regional Scientific Conference of the Americas (2021), aportando evidencia sobre la utilidad de redes sociales como sensor complementario en vigilancia epidemiológica. Los dashboards sirvieron como insumo para la estrategia de contención durante la pandemia en CDMX.
Mi rol
Data Scientist responsable del pipeline de ingesta, los modelos de NLP y análisis de sentimiento, y los dashboards geoespaciales. Co-autoría de la publicación presentada en TEPHINET 2021.
Lo que aprendí
Las redes sociales son un sensor ruidoso pero temprano. La clave no es confiar en el volumen bruto, sino correlacionar sus señales con fuentes oficiales para validar cuándo son predictivas. En crisis sanitarias, llegar temprano con una señal imperfecta es más valioso que llegar tarde con una perfecta.
Recursos relacionados con este caso:
¿Quieres algo similar para tu organización?
Hablemos de tu proyecto. Respondo en menos de 24 horas.