NanoGPT Slowrun: 5.5x eficiencia con datos limitados
El problema que nadie quiere enfrentar: los LLMs se están quedando sin datos Durante años, el mantra de la industria IA fue simple: más datos + más cómputo = mejor modelo. Las leyes de escalado de Chinchilla (Hoffmann et al., 2022) lo formalizaron: un modelo óptimo requiere aproximadamente 20 tokens de entrenamiento por cada parámetro, …









