Las grandes bases de datos internacionales de desastres, como Emergency Events Database (EM-DAT), registran principalmente eventos de gran magnitud. Sin embargo, miles de inundaciones, deslizamientos o incidentes industriales de menor magnitud quedan fuera de estas estadísticas, pese a que su impacto acumulado puede ser crucial para las comunidades locales.
Leire Labaka, Josune Hernantes y Fernando María de Villar Rosety, investigadores del Instituto de Biodiversidad y Medioambiente BIOMA en la Escuela de Ingeniería Tecnun de la Universidad de Navarra, han participado en un artículo publicado en la revista International Journal of Data Science and Analytics bajo el título “From headlines to databases: leveraging LLMs for structured disaster event extraction”, que emplea un sistema de inteligencia artificial (modelos grandes de lenguaje) para identificar y registrar desastres locales a partir de noticias publicadas en internet. Este método permite detectar eventos de pequeña escala que habitualmente quedan fuera de las grandes bases de datos internacionales.
El sistema combina técnicas de rastreo web, o web scraping, y modelos de lenguaje como ChatGPT para analizar de forma automática artículos de prensa y extraer información relevante sobre desastres, como su localización, la fecha o las infraestructuras afectadas. "Cada día, cientos de noticias describen cómo una inundación cortó tal carretera o aisló tal municipio. Esa información existe, pero está dispersa y desordenada. Nuestro trabajo usa modelos de lenguaje para leerla sistemáticamente y convertirla en datos estructurados: el puente entre lo que cuentan los periódicos y lo que necesitan los planificadores y gestores para tomar decisiones”, afirma Fernando María de Villar Rosety, investigador principal del artículo.