LLMs en programacion: ¿mejora real o solo benchmarks?

El benchmark que está cambiando la conversación sobre los LLMs

Durante meses, la narrativa dominante fue que los modelos de lenguaje grande (LLMs) mejoraban semana tras semana en tareas de programación. Los leaderboards subían, los comunicados de prensa prometían modelos más capaces, y el ecosistema tech celebraba cada décima de punto porcentual como un hito. Pero un análisis publicado en Entropic Thoughts levanta una pregunta incómoda: ¿realmente están mejorando los LLMs en programación real, o solo están mejorando en pasar exámenes?

La respuesta, respaldada por datos estadísticos, apunta a algo que todo founder que integra IA en sus productos debería conocer: existe una brecha profunda entre el desempeño en benchmarks y la calidad del código que puede integrarse en producción.

Qué mide SWE-bench y por qué importa

SWE-bench es hoy el estándar de referencia más exigente para evaluar la capacidad de programación de los LLMs. A diferencia de HumanEval —donde la mayoría de los modelos frontier ya alcanzan puntajes cercanos al 100% y su utilidad como diferenciador es casi nula— SWE-bench trabaja con 500 issues reales de repositorios en GitHub: bugs auténticos, contexto de código existente, y patches que deben funcionar en entornos reales.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

La versión SWE-bench Verified fue diseñada específicamente para que los modelos demuestren comprensión de bases de código complejas, identificación de errores y generación de parches que pasen pruebas automatizadas. En papel, suena a la prueba más cercana al trabajo real de un ingeniero. En la práctica, tiene limitaciones críticas que el análisis de Entropic Thoughts pone sobre la mesa.

El estancamiento que los leaderboards no muestran

El hallazgo central del estudio es contundente: aunque los LLMs siguen aprobando más pruebas automatizadas en los benchmarks, la tasa de merge aprobados —es decir, la proporción de código generado que realmente pasa revisión y puede integrarse a un proyecto real— no ha mejorado de forma significativa desde principios de 2025.

Los gráficos y métricas estadísticas del análisis muestran una curva que se aplana. No una caída, pero sí una estabilización que contrasta con la narrativa de mejora continua que dominó el relato de la industria durante 2024.

Esto tiene implicaciones directas para cualquier equipo que haya tomado decisiones de producto, contratación o arquitectura asumiendo que los LLMs de código serían significativamente mejores en 2025 y 2026.

¿Por qué sigue subiendo el puntaje si la mejora real se estancó?

Aquí es donde el análisis se vuelve especialmente relevante para founders. Investigaciones complementarias sobre los mejores modelos de coding en 2026 apuntan a un fenómeno bien documentado: el scaffold del agente importa más que el modelo en sí.

Un mismo modelo puede pasar del 23% al 45%+ en SWE-bench Pro simplemente cambiando el framework de agente que lo envuelve —de una configuración básica a un scaffold multi-turno de 250 iteraciones— sin tocar los pesos del modelo. Esa diferencia de más de 22 puntos porcentuales supera con creces la brecha entre cualquier par de modelos frontier.

Dicho de otra manera: cuando Claude Opus 4.5 anuncia un 80.9% en SWE-bench Verified, o cuando MiniMax M2.5 alcanza el 80.2%, parte del crédito corresponde al tooling y al agente que los rodea, no solo a las capacidades inherentes del modelo. Los leaderboards, tal como están presentados hoy, no distinguen entre ambos.

La brecha entre benchmark y producción: lo que todo founder debe entender

Para un equipo de producto que integra LLMs en su stack, la distinción es fundamental:

Pasar una prueba automatizada significa que el código sintácticamente correcto resuelve un caso de test definido.
Ser integrable en código real significa que el código es legible, mantenible, coherente con el contexto existente, y que un reviewer humano lo aprobaría en un pull request de producción.

El análisis de Entropic Thoughts evidencia que los LLMs han mejorado en lo primero, pero no de forma proporcional en lo segundo. La tasa de merge es la métrica que más se acerca al valor real en entornos de producción, y ahí es donde se observa el estancamiento.

Esto también tiene eco en los datos de campo: modelos como DeepSeek V3.1, que alcanza un 66% en SWE-bench, reciben reseñas mixtas en implementaciones reales, precisamente por esa brecha entre puntaje de benchmark y calidad percibida en producción.

La evolución de los benchmarks como señal de madurez del campo

Que la industria esté migrando de HumanEval a SWE-bench, y ahora explorando variantes como SWE-bench Pro, SWE-bench Multilingual y CodeClash (que evalúa a los LLMs como desarrolladores orientados a objetivos, no solo a tareas) no es un detalle menor. Es una señal de que el campo reconoce que los benchmarks anteriores han alcanzado su techo y ya no son útiles para diferenciar capacidades reales.

Para los founders que toman decisiones con base en estos rankings, este ciclo de benchmark → saturación → nuevo benchmark debería ser una advertencia sobre cómo interpretar los números que publican los labs.

¿Qué está mejorando realmente?

El panorama no es completamente sombrío. Hay áreas donde el progreso es genuino y medible:

Eficiencia de parámetros: modelos como Step-3.5-Flash logran 97.3% en AIME 2025 y 86.4 en LiveCodeBench usando solo 196B parámetros, lo que indica que las ganancias en eficiencia son reales.
Democratización de capacidades: modelos open-source como Kimi K2.5 y Qwen3-Coder ahora se acercan al rendimiento de los modelos propietarios en benchmarks de coding, a un costo entre 3 y 10 veces menor.
Scaffolding y tooling: el progreso más significativo en tareas complejas de código proviene de la mejora en los frameworks agénticos, no solo del modelo base.

La conclusión práctica: si tu equipo trabaja con LLMs para código, la inversión en el agente y el contexto que rodea al modelo puede tener mayor retorno que esperar el próximo modelo frontier.

Implicaciones para founders que construyen con IA

El análisis de Entropic Thoughts no es una sentencia de muerte para los LLMs en programación. Es un llamado a la madurez en cómo los ecosistemas tech —y los founders en particular— interpretamos los benchmarks y tomamos decisiones estratégicas.

Algunas preguntas que vale la pena hacerse si tu producto depende de LLMs para generación de código:

¿Estás midiendo el desempeño del modelo con métricas propias de tu caso de uso, o confiando en benchmarks genéricos?
¿Cuánto del rendimiento que observas viene del modelo y cuánto del scaffold/agente que lo rodea?
¿Tus decisiones de roadmap asumen mejoras que los datos sugieren que no están llegando?

Conclusión

La pregunta que da título al análisis original —¿están mejorando realmente los LLMs?— no tiene una respuesta binaria. Mejoran en algunos ejes (eficiencia, variedad de benchmarks, democratización open-source) pero muestran señales claras de estancamiento en lo que más importa para equipos de producto: la calidad del código que puede integrarse en producción real.

Para founders que construyen con IA, el mensaje es claro: el siguiente paso competitivo no está necesariamente en esperar el próximo modelo, sino en invertir en mejor tooling, mejores evals propios y mejores procesos de revisión humana. Los benchmarks son un mapa, no el territorio.

Profundiza estos temas con nuestra comunidad de founders que ya construyen con IA en produccion.

Unirme a la comunidad