Cuando los datos no existen, la IA los crea desde el pasado
Predecir una inundación relámpago es uno de los problemas más complejos de la climatología moderna. A diferencia de las crecidas de ríos —que tienen patrones relativamente predecibles—, los flash floods son eventos súbitos, localizados y devastadores que históricamente han desafiado incluso a los mejores modelos hidrológicos. El principal obstáculo: la escasez de datos cuantitativos históricos confiables en muchas regiones del mundo.
Ahora, Google está atacando ese problema desde un ángulo inédito: usar grandes modelos de lenguaje (LLM) para extraer información cuantitativa a partir de reportes periodísticos históricos. Dicho de otra forma, convertir noticias viejas en datos estructurados que alimenten modelos predictivos de alta precisión.
El problema de la escasez de datos en hidrología
Los sistemas de predicción climática tradicionales dependen de series de datos históricos medidos con instrumentos: pluviómetros, sensores de nivel de ríos, estaciones meteorológicas. El problema es que en gran parte del mundo —especialmente en América Latina, África subsahariana y el sudeste asiático— esa infraestructura es insuficiente o directamente inexistente.
👥 ¿Quieres ir más allá de la noticia?
En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.
👥 Unirme a la comunidadInvestigaciones publicadas en la revista Eos ya habían demostrado que los archivos de prensa local contienen décadas de información sobre eventos climáticos extremos que nunca fue digitalizada ni estructurada. Un estudio pionero logró validar modelos de riesgo hídrico utilizando reportes de diarios: el 84% de las inundaciones reportadas coincidió con zonas predichas como de alto riesgo. El potencial era enorme, pero el proceso de extracción manual era imposible de escalar.
Cómo Google convierte reportes cualitativos en datos cuantitativos con LLM
La innovación de Google radica en automatizar ese proceso de extracción con inteligencia artificial. Al aplicar un LLM sobre grandes corpus de noticias históricas, el sistema es capaz de identificar y estructurar datos clave de cada evento reportado: fecha, ubicación geográfica, intensidad estimada, zonas afectadas, niveles de agua y alcance de los daños.
Lo que antes requería semanas de trabajo humano especializado, ahora puede procesarse en horas. El resultado es una capa de datos cuantitativos históricos que complementa —o en algunos casos reemplaza— los registros instrumentales faltantes, permitiendo entrenar modelos predictivos con una base de información significativamente más robusta.
Esta metodología aborda directamente uno de los cuellos de botella más críticos del aprendizaje automático aplicado al clima: no hay buen modelo sin buenos datos de entrenamiento.
El contexto más amplio: Google Flood Forecasting Initiative
Este desarrollo se enmarca dentro del ambicioso programa de Google Flood Forecasting Initiative, considerado el primer sistema operacional de predicción de inundaciones a escala global. Actualmente cubre a más de 460 millones de personas en 80 países, integrando sus alertas directamente en Google Search, Google Maps y notificaciones de Android.
El sistema central utiliza redes neuronales de tipo LSTM (Long Short-Term Memory) entrenadas sobre datos de caudales, topografía y simulaciones hidrológicas. Las predicciones llegan hasta 7 días de anticipación para inundaciones fluviales. La nueva capa de datos extraídos desde noticias históricas amplía ahora esa capacidad hacia los impredecibles —y mucho más mortales— flash floods.
De manera complementaria, investigaciones de la Universidad de Michigan demostraron que combinar modelos de IA con el National Water Model mejora la precisión de las predicciones entre 4 y 6 veces respecto a los enfoques convencionales basados únicamente en física.
Implicaciones para founders de tecnología climática y clima tech
Más allá del logro científico, esta metodología abre una conversación muy relevante para el ecosistema startup:
- Reutilización de datos no estructurados: la prensa, los foros, las redes sociales y los registros administrativos son reservorios masivos de información valiosa que los LLM pueden estructurar a bajo costo.
- Democratización del acceso a datos: startups de climate tech, agritech e insurtech en LATAM pueden replicar esta lógica para construir modelos predictivos donde los datos oficiales brillan por su ausencia.
- IA aplicada a problemas reales: el caso de Google demuestra que el valor diferencial de los LLM no está solo en generar texto, sino en convertir información cualitativa en activos cuantitativos accionables.
- Ventanas de negocio: industrias como seguros agropecuarios, logística de última milla, gestión de infraestructura y respuesta humanitaria pueden beneficiarse directamente de modelos de predicción climática hiperlocal.
Un modelo replicable para el ecosistema startup latinoamericano
El enfoque de Google es, en esencia, una solución elegante al problema universal del cold start en machine learning: cuando no tienes datos estructurados suficientes, busca fuentes de información alternativas y usa IA para transformarlas.
En LATAM, donde la brecha de infraestructura de datos es enorme en sectores como agricultura, salud rural, microfinanzas y clima, este paradigma tiene aplicaciones directas. Startups como The Weather Company LATAM, Agrofy o iniciativas de seguros paramétricos ya operan en este espacio, pero el enfoque de extracción de datos históricos con LLM abre un nuevo frente competitivo.
La clave está en identificar dónde vive la información que nadie ha digitalizado aún —archivos de diarios locales, actas municipales, reportes de ONGs, foros comunitarios— y tener la capacidad técnica para procesarla a escala.
Conclusión
Lo que Google está haciendo con noticias antiguas e IA para predecir inundaciones relámpago no es solo un avance científico; es un cambio de paradigma metodológico. Demuestra que los LLM pueden ser puentes entre el conocimiento cualitativo acumulado durante décadas y los modelos cuantitativos que necesitamos para tomar decisiones críticas. Para los founders de tecnología que operan en sectores con escasez de datos estructurados —que en LATAM son casi todos—, este caso es una hoja de ruta concreta sobre cómo aplicar inteligencia artificial para construir ventajas competitivas reales desde la base de datos.
Descubre cómo otros founders implementan IA y LLM para resolver problemas reales en sus industrias.
Fuentes
- https://techcrunch.com/2026/03/12/google-is-using-old-news-reports-and-ai-to-predict-flash-floods/ (fuente original)
- https://blog.google/innovation-and-ai/products/google-ai-global-flood-forecasting/ (fuente adicional)
- https://eos.org/articles/can-newspaper-reporting-uncover-flood-risk (fuente adicional)
- https://ai4sibook.org/google-flood-forecasting-initiative/ (fuente adicional)
- https://news.engin.umich.edu/2025/09/ai-increases-accuracy-of-national-water-model-flood-predictions/ (fuente adicional)













