Rich Sutton: por qué los LLMs no hacen ciencia real en 2026

Rich Sutton desafía el consenso: por qué los LLMs no pueden hacer ciencia real

Richard Sutton, ganador del premio Turing y padre del aprendizaje por refuerzo, ha vuelto a generar controversia al afirmar que la IA generativa basada en aprendizaje supervisado es incapaz de realizar descubrimientos científicos reales. Su argumento central: la verdadera creatividad requiere un proceso de 'Descubrimiento' compuesto por variación, evaluación y retención selectiva, elementos ausentes en los LLMs actuales pero presentes en sistemas de aprendizaje por refuerzo.

Esta declaración no es aislada. En marzo de 2025, Sutton ya advirtió en una entrevista con IBM que "la IA necesita aprender haciendo, por ensayo y error", criticando que escalar modelos de lenguaje no es el camino hacia inteligencia general. Para founders que construyen productos de IA en 2026, este debate tiene implicaciones directas en arquitectura, estrategia de producto y decisiones de inversión tecnológica.

¿Qué dice exactamente Rich Sutton sobre los LLMs?

La postura de Sutton es consistente desde hace años, pero se ha intensificado con el auge de los LLMs. Según resume IBM en su cobertura de 2025, Sutton sostiene que los LLMs aprenden patrones de texto, no mediante interacción continua con el mundo. En cambio, el aprendizaje por refuerzo (RL) aprende de experiencia, objetivos y consecuencias reales.

🤖 La IA no es solo para leer sobre ella

En la comunidad la aplicamos: automatización, agentes IA y herramientas reales para emprender, no solo para informarte.

👥 Aplicarla en la comunidad

El contraste es fundamental: mientras un LLM predice la siguiente palabra basándose en correlaciones estadísticas del corpus de entrenamiento, un agente de RL toma decisiones secuenciales, recibe feedback del entorno y ajusta su política para maximizar recompensas a largo plazo. Sutton argumenta que este segundo enfoque es el único que puede llevar a descubrimientos genuinos, no solo a síntesis de conocimiento existente.

En un podcast de septiembre de 2025, Sutton fue aún más explícito: los LLMs "imitan patrones de lenguaje", mientras que los agentes de RL aprenden de interacción, recompensas y consecuencias. Su crítica no es de rendimiento inmediato —reconoce que los LLMs son útiles— sino de fundamento conceptual para alcanzar inteligencia general.

¿Puede la IA hacer descubrimientos científicos reales?

El debate actual no es si la IA ayuda en ciencia —eso está demostrado— sino qué cuenta como descubrimiento real. La literatura reciente distingue al menos tres niveles: generación de hipótesis, priorización y optimización experimental, y descubrimiento autónomo de leyes o mecanismos.

Los casos más fuertes de contribución de IA a la ciencia se encuentran en química, biología estructural y diseño de materiales, donde sistemas automatizados pueden proponer candidatos moleculares y acelerar ciclos experimentales. Sin embargo, la pregunta crítica persiste: si un sistema propone una hipótesis que luego un humano valida, ¿el descubrimiento fue de la IA o del sistema socio-técnico humano-IA?

Las revisiones de 2025-2026 tratan esto como una cuestión abierta, más filosófica y metodológica que puramente técnica. Lo que está claro es que los enfoques híbridos —LLMs para interfaz lingüística y síntesis, más herramientas externas, evaluadores, búsqueda, simulación o RL— están logrando resultados concretos en investigación aplicada.

¿Qué es el proceso de variación-evaluación-retención?

Este ciclo es el corazón del argumento de Sutton. Aparece en varias familias de sistemas:

Algoritmos evolutivos: generan variantes, las evalúan con una función de aptitud y conservan las mejores para la siguiente generación
Neuroevolución y búsqueda de arquitecturas: prueban muchas variantes de modelos o políticas, miden desempeño y retienen las más prometedoras
Auto-refinamiento con evaluación externa: sistemas que producen múltiples respuestas o planes, usan un evaluador para rankearlos y mantienen los mejores candidatos para iterar
Sistemas multi-agente: relevantes para ciencia colaborativa o competitiva, donde agentes exploran estrategias, evalúan resultados y ajustan comportamientos

Los LLMs estándar, en cambio, operan en modo de inferencia estática: reciben un prompt, generan una respuesta basada en pesos fijos, y no hay mecanismo intrínseco de variación sistemática ni retención selectiva de lo que funciona. Algunos sistemas recientes incorporan técnicas de auto-evaluación o búsqueda, pero Sutton argumenta que esto sigue siendo insuficiente sin aprendizaje continuo del entorno.

Alternativas a los LLMs para investigación científica

Las alternativas más serias no son un único modelo rival, sino familias de enfoques complementarios:

Aprendizaje por refuerzo (RL) es útil cuando la ciencia puede formularse como secuencias de decisiones con recompensas, como control experimental, diseño adaptativo o planificación. Modelos causales prometen ir más allá de correlaciones textuales y representar mecanismos, algo central en ciencia. Sistemas de búsqueda y planificación exploran espacios de hipótesis o experimentos en lugar de predecir texto.

Agentes con memoria y aprendizaje continuo pueden adaptar su política con nuevas observaciones sin depender tanto de reentrenamientos masivos. En la práctica, lo más fuerte para ciencia en 2026 suele ser híbrido: LLMs para interfaz lingüística y síntesis, más herramientas externas, evaluadores, búsqueda, simulación, RL o experimentación automatizada.

¿Qué significa esto para tu startup?

Si estás construyendo un producto de IA en 2026, el debate Sutton tiene implicaciones prácticas inmediatas:

1. Evalúa tu arquitectura según el tipo de problema

Si tu producto requiere descubrimiento, optimización continua o adaptación a entornos dinámicos (ej. trading algorítmico, diseño de materiales, robótica, experimentación automatizada), considera incorporar componentes de aprendizaje por refuerzo o algoritmos evolutivos. Los LLMs puros pueden ser insuficientes para problemas que requieren exploración activa del espacio de soluciones.

2. No descartes los híbridos

La mayoría de las startups no necesitan elegir entre LLMs o RL de forma binaria. Un enfoque pragmático: usa LLMs para interfaz natural, síntesis de literatura y generación de hipótesis iniciales, pero incorpora mecanismos de evaluación externa, búsqueda guiada o RL para refinar y validar esas hipótesis. Esto combina la fluidez lingüística de los LLMs con la capacidad de descubrimiento de sistemas basados en experiencia.

3. Define claramente qué cuenta como "valor" en tu producto

Si tu propuesta de valor es automatizar tareas repetitivas o sintetizar conocimiento existente, los LLMs pueden ser suficientes. Pero si prometes descubrimiento, innovación o optimización no trivial, deberás justificar cómo tu sistema implementa variación-evaluación-retención de forma genuina, no solo como un wrapper superficial.

4. Mantente alerta a la evolución del ecosistema

El campo de agentes de IA está evolucionando rápidamente. Sistemas que combinan memoria a largo plazo, planificación multi-paso y aprendizaje continuo están emergiendo como alternativas viables. Monitorea avances en RLHF (aprendizaje por refuerzo con feedback humano), sistemas multi-agente y arquitecturas neuro-simbólicas.

Conclusión

La advertencia de Rich Sutton no es un llamado a abandonar los LLMs, sino una invitación a pensar críticamente sobre sus limitaciones fundamentales. Para founders hispanohablantes construyendo en el ecosistema de IA en 2026, el mensaje es claro: entiende qué problema resuelves, elige la arquitectura adecuada, y no confundas síntesis lingüística con descubrimiento real.

El futuro probablemente pertenezca a sistemas híbridos que combinen lo mejor de ambos mundos: la fluidez y accesibilidad de los LLMs con la capacidad de aprendizaje continuo y descubrimiento del aprendizaje por refuerzo. Tu tarea como founder es determinar qué mezcla tiene sentido para tu caso de uso específico.