LLM Drift en finanzas: 38 dias con Gemini Pro

Qué es GlassBallAI y por qué importa

Un desarrollador independiente decidió hacer algo que pocos se molestan en documentar: registrar, durante 38 días consecutivos, las predicciones bursátiles generadas por Gemini Pro 2.5 para un mismo set de activos. El resultado es GlassBallAI, un dataset publicado en Hugging Face que contiene aproximadamente 1.100 predicciones sobre 30 acciones representativas de distintos sectores del mercado.

El proyecto no pretende ser un consejo financiero ni un sistema de trading automático. Su valor es otro: capturar el estado interno de un modelo de lenguaje de última generación frente a la incertidumbre real del mercado, semana tras semana. Incluye expectativas numéricas, niveles de confianza, señales de sentimiento y razonamientos en lenguaje natural. En pocas palabras, es una radiografía longitudinal del comportamiento de un LLM bajo presión informativa real.

El fenómeno del LLM drift: cuando la IA se contradice a sí misma

El concepto central que motivó este experimento es el llamado LLM drift: la tendencia de los modelos de lenguaje a producir respuestas inconsistentes frente a preguntas similares en distintos momentos del tiempo. En contextos financieros, esto es especialmente problemático, porque una predicción que varía significativamente de un día a otro —sin que el contexto de mercado lo justifique— revela una inestabilidad subyacente en el modelo.

Investigaciones publicadas en ACL Anthology sobre detección de Post-Earnings Announcement Drift (PEAD) con LLMs muestran que modelos como FinBERT y LLaMA pueden superar a los baselines en tareas específicas, pero presentan inconsistencias a nivel de portafolio a largo plazo. El patrón se repite: fuerte precisión de corto plazo, inestabilidad creciente en horizontes más amplios.

Por su parte, el blog de QuantInsti documenta el método ADDM (Autoregressive Drift Detection Method), que monitorea errores de predicción en ventanas rodantes para identificar cambios de régimen en el mercado y activar actualizaciones del modelo. Este enfoque práctico reconoce que el drift no es un bug sino una característica inherente de los LLMs aplicados a entornos dinámicos.

Lo que dicen los estudios sobre LLMs y predicciones bursátiles

El campo ha madurado rápidamente. Un paper seminal disponible en SSRN documentó que ChatGPT puede extraer señales de rentabilidad desde titulares de noticias, superando métodos tradicionales, especialmente para acciones de menor capitalización y noticias con tono negativo. Sin embargo, los autores advierten que el modelo no fue entrenado directamente con datos financieros, lo que limita su robustez.

Un estudio más reciente publicado en arXiv exploró un enfoque agentivo: usar LLMs para descubrir modelos estocásticos que estimen métricas de riesgo como VaR y CVaR, mejorando los ratios Sharpe en backtests. El hallazgo clave es que los LLMs no son buenos predictores directos, pero sí potentes descubridores de estructura cuando se les integra en pipelines más sofisticados.

Lo que GlassBallAI añade a este panorama es dimensión temporal: no basta con preguntar una vez qué va a pasar con una acción. Lo relevante es preguntar lo mismo durante semanas y observar cómo cambia la respuesta, el nivel de confianza y el razonamiento, aun cuando las condiciones de mercado sean estables.

Estructura del dataset y metodología del experimento

El dataset está disponible bajo licencia Creative Commons BY-NC 4.0, lo que lo hace apto para investigación no comercial. Su estructura incluye:

Expectativas numéricas: precios o movimientos esperados por el modelo.
Niveles de confianza: autoevaluación del modelo sobre la certeza de su predicción.
Señales de sentimiento: clasificación cualitativa (positivo, negativo, neutral).
Razonamiento en lenguaje natural: el argumento completo que el modelo generó para sustentar cada predicción.

Las 30 acciones seleccionadas cubren distintos sectores, lo que permite análisis comparativos entre industrias y observar si el drift es homogéneo o si afecta de forma diferenciada a activos más volátiles o con mayor cobertura mediática.

El horizonte de 38 días permite detectar patrones de deriva: si el modelo empieza con alta confianza y niveles de confianza consistentes, pero hacia el final del período sus razonamientos se vuelven más erráticos o contradictorios, hay evidencia empírica de drift temporal.

Por qué esto es relevante para founders e inversores tech

Para los founders del ecosistema startup que están construyendo productos sobre LLMs, este experimento ofrece una lección concreta: la consistencia temporal de un modelo no puede darse por sentada. Cualquier aplicación que dependa de respuestas coherentes a lo largo del tiempo —ya sea en finanzas, en soporte al cliente o en análisis estratégico— necesita mecanismos de monitoreo activo del drift.

En el ámbito de las fintech y herramientas de inversión basadas en IA, la implicancia es directa. Si un modelo como Gemini Pro 2.5 muestra variabilidad significativa en sus predicciones sobre los mismos activos en condiciones de mercado similares, integrar ese output sin filtros en decisiones de inversión sería imprudente. El dataset de GlassBallAI provee el tipo de evidencia empírica que los equipos de producto necesitan para diseñar capas de validación adecuadas.

Además, para quienes investigan o construyen pipelines de análisis cuantitativo con IA, este dataset es un recurso inusual: tiene razonamiento en lenguaje natural, no solo outputs numéricos. Eso lo convierte en material valioso para estudios de calibración de confianza, análisis de sesgo cognitivo en LLMs y benchmarking entre modelos.

Limitaciones que todo equipo debe conocer

El experimento tiene restricciones importantes que sus propios autores reconocen. La muestra de 38 días es suficiente para detectar patrones preliminares, pero insuficiente para afirmaciones estadísticamente robustas sobre comportamiento de largo plazo. Del mismo modo, el foco exclusivo en Gemini Pro 2.5 no permite comparar si el drift observado es una característica específica de ese modelo o un fenómeno transversal a los LLMs actuales.

Tampoco existe un benchmark de desempeño real: no se sabe si las predicciones del modelo habrían generado retornos positivos o negativos en mercado real, porque el objetivo del proyecto era estudiar el comportamiento del modelo, no su rentabilidad. Esa distinción es fundamental para no sobreinterpretar los datos.

Conclusión

GlassBallAI es un experimento humilde pero metodológicamente honesto. En un ecosistema donde abundan las afirmaciones grandiosas sobre la capacidad predictiva de la IA, un dataset que documenta sistemáticamente la variabilidad de un LLM frente a la incertidumbre financiera tiene un valor propio. No promete rendimientos ni estrategias ganadoras: entrega algo más escaso y más útil, que es evidencia empírica sobre cómo se comporta realmente un modelo de lenguaje de frontera cuando se le pide predecir lo impredecible, durante semanas, sin descanso.

Para los founders que construyen sobre LLMs, el mensaje es claro: medir el drift no es opcional. Es parte del producto.

Descubre cómo otros founders implementan IA en sus productos y evitan estos errores operativos. Únete gratis a la comunidad de Ecosistema Startup.

Unirme gratis