NanoGPT Slowrun: 5.5x eficiencia con datos limitados

El problema que nadie quiere enfrentar: los LLMs se están quedando sin datos

Durante años, el mantra de la industria IA fue simple: más datos + más cómputo = mejor modelo. Las leyes de escalado de Chinchilla (Hoffmann et al., 2022) lo formalizaron: un modelo óptimo requiere aproximadamente 20 tokens de entrenamiento por cada parámetro, lo que significa que datos y cómputo deben crecer en paralelo. El problema es que el cómputo disponible está creciendo exponencialmente, mientras que los datos de texto generado por humanos tienen un techo físico.

La investigación de Pablo Villalobos y su equipo en Epoch AI es contundente: si las tendencias actuales continúan, los modelos de lenguaje agotarán el stock disponible de texto público humano entre 2026 y 2032. Los datos de alta calidad podrían escasear incluso antes. Esto no es una advertencia lejana; es un problema presente.

Mientras la comunidad IA debatía si comprar más GPUs, un equipo tomó el camino opuesto: ¿qué pasa si aprendes a hacer más con menos datos?

Qué es NanoGPT Slowrun y por qué importa

Q Labs lanzó NanoGPT Slowrun, un repositorio open source con una premisa radicalmente diferente a los benchmarks tradicionales. Las reglas son sencillas:

Entrena sobre 100 millones de tokens del dataset FineWeb.
Usa todo el cómputo que quieras: sin límite de tiempo, sin límite de GPUs.
El criterio único es: menor validation loss gana.

La restricción es la inversa de benchmarks de velocidad como modded-nanogpt de Keller Jordan, donde el objetivo es entrenar lo más rápido posible. Esos benchmarks de velocidad han sido enormemente productivos, pero tienen un sesgo estructural: filtran automáticamente ideas costosas en cómputo, como regularización agresiva, optimizadores de segundo orden o alternativas al descenso de gradiente. Slowrun fue construido exactamente para esas ideas.

El objetivo declarado de Q Labs va más allá de un benchmark: buscan entender y resolver la generalización. Quieren construir algoritmos de aprendizaje que funcionen en escenarios de datos limitados y cómputo prácticamente infinito, que es precisamente la dirección hacia la que se mueve la industria.

De 2.4x a 5.5x: los hallazgos técnicos clave

En su primera semana de operación, el proyecto pasó de una eficiencia de datos de 2.4x a 5.5x frente a modded-nanogpt, más del doble en pocos días, gracias a contribuciones de la comunidad. Esto es lo que se descubrió:

El optimizador Muon supera a todos los rivales

En las pruebas realizadas, Muon superó consistentemente a AdamW, SOAP y MAGMA. Este resultado es significativo: AdamW sigue siendo el estándar de facto para entrenar LLMs, y ver un competidor claro ganar bajo condiciones de cómputo ilimitado sugiere que el ecosistema aún tiene optimizadores subexplorados.

El entrenamiento multi-época importa más de lo que se pensaba

Entrenar múltiples pasadas sobre el mismo corpus de datos (multi-epoch training) demostró ser una palanca real de eficiencia. En combinación con shuffling al inicio de cada época (un cambio que tuvo impacto desproporcionado en los resultados), se logran ganancias sustanciales sin necesidad de más datos.

Regularización agresiva como habilitador del escalado

Siguiendo el trabajo de Kotha et al. sobre pre-entrenamiento bajo cómputo infinito, el proyecto demostró que escalar a conteos de parámetros grandes funciona si se combina con regularización agresiva: weight decay hasta 16 veces el estándar más dropout. Sin esta combinación, simplemente añadir parámetros no mejora los resultados.

Otras mejoras que empujaron a 5.5x

Proyecciones aprendidas para value embeddings en lugar de tablas de embeddings separadas.
Reemplazo de squared ReLU por activación SwiGLU.
Ensemble de múltiples modelos: combinar predicciones de varios modelos entrenados de forma independiente.

El paralelo con robótica y biología: una señal que la IA debe escuchar

Uno de los argumentos más poderosos del equipo de Q Labs viene de observar campos adyacentes. En robótica y biología computacional, el enorme requerimiento de datos produce modelos relativamente débiles. Ambos campos tienen incentivos económicos suficientes para usar 1000 veces más cómputo si eso mejorara significativamente los resultados. Pero no pueden, porque nadie sabe cómo escalar con cómputo solo sin agregar más datos.

Esto no es un problema teórico futuro para los LLMs: es el presente de robótica y biología, y será el futuro de los modelos de lenguaje si no se desarrollan nuevos algoritmos de aprendizaje.

Direcciones abiertas: dónde está el whitespace de investigación

El equipo de Q Labs identifica varias direcciones que considera ampliamente inexploradas en el contexto de datos limitados y cómputo ilimitado:

Optimizadores de segundo orden y métodos de gradiente natural: Aproximaciones más precisas del Hessiano que podrían mejorar significativamente la convergencia con menos datos.
Modelos de difusión para lenguaje: Generación de texto mediante denoising iterativo, con potencial para aprendizaje más eficiente.
Curriculum learning: Presentar los datos en orden de dificultad creciente para mejorar la generalización.
Alternativas al descenso de gradiente: Búsqueda evolutiva y otros métodos metaheurísticos.
Optimización para compresión y complejidad del modelo: Principio de longitud de descripción mínima (MDL) aplicado al entrenamiento.

¿Qué tan lejos puede llegar Slowrun?

El equipo estima que 10x de eficiencia de datos es alcanzable en el corto plazo. 100x podría ser factible antes de que termine el año, dado que quedan muchas direcciones sin explorar. Sin embargo, llegarlo requiere exploración seria en el lado algorítmico, no solo ajustes incrementales de hiperparámetros.

Para ponerlo en perspectiva: si un modelo actualmente necesita 300 mil millones de tokens para alcanzar cierto nivel de rendimiento, una eficiencia de 100x significaría lograrlo con solo 3 mil millones de tokens. El impacto en costos, accesibilidad y posibilidad de entrenar con datos propios sería transformador para cualquier startup que quiera construir modelos propietarios.

Por qué esto es relevante para founders tech en LATAM

El modelo de "escalar con más datos" ha sido históricamente el privilegio de OpenAI, Google DeepMind y Anthropic: organizaciones con acceso a datasets masivos y clusters de entrenamiento enormes. Si los algoritmos data-eficientes maduran, el campo de juego cambia. Un equipo pequeño con datos de dominio específico y acceso razonable a cómputo podría entrenar modelos competitivos para verticales concretas.

Para founders construyendo en FinTech, LegalTech, AgriTech o salud en LATAM, donde los datos etiquetados de alta calidad son escasos, esta línea de investigación es directamente relevante. No como algo para implementar hoy, pero sí como una tendencia a seguir de cerca y cuyo ecosistema open source vale la pena explorar.

Conclusión

NanoGPT Slowrun es más que un benchmark: es una apuesta filosófica sobre hacia dónde debe moverse la investigación en IA. Mientras la industria sigue apostando por más datos y más cómputo, Q Labs está explorando el espacio opuesto: aprender más con lo que ya existe. Los resultados iniciales, pasar de 2.4x a 5.5x de eficiencia de datos en días, son prometedores. Si la tendencia continúa, las implicaciones para democratizar el entrenamiento de modelos de lenguaje son enormes.

Para los founders que construyen con IA, vale la pena seguir el repositorio, contribuir si tienen expertise en optimización o entrenamiento, y estar atentos a cuándo estas técnicas comiencen a trasladarse a frameworks de producción. El cuello de botella de datos en IA no es un problema abstracto; es una oportunidad concreta para quien construya los algoritmos que lo resuelvan.

Descubre cómo otros founders implementan estas soluciones de IA en sus startups y conecta con la comunidad que experimenta con modelos de lenguaje, automatización y herramientas open source.

Explorar comunidad