OpenAI abandona SWE-bench Verified: qué usar en 2026

¿Por qué SWE-bench Verified dejó de ser útil?

El 93,9% de puntuación que Claude Mythos alcanzó en SWE-bench Verified en 2026 parece impresionante, pero revela un problema crítico: este benchmark ya no distingue entre modelos de IA de vanguardia. OpenAI anunció en febrero de 2026 que abandonará esta métrica porque la contaminación de datos y las pruebas defectuosas distorsionan la evaluación real de capacidades de ingeniería de software autónoma.

Para founders que evalúan modelos de IA para sus productos de software, esto cambia las reglas del juego. Si estás usando SWE-bench Verified como criterio de selección, podrías estar tomando decisiones basadas en datos inflados que no reflejan el rendimiento real en producción.

¿Qué es SWE-bench Verified y por qué falló?

SWE-bench Verified era un subconjunto de 500 tareas filtradas y validadas por humanos del benchmark original SWE-bench. Cada tarea consistía en incidencias reales de GitHub donde los modelos debían generar parches que pasaran pruebas unitarias en repositorios completos.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

El problema fundamental es doble. Primero, la contaminación de datos: los problemas provienen de repositorios open-source que los modelos ya vieron durante su entrenamiento. OpenAI detectó que todos los modelos de vanguardia reproducen el parche original humano o detalles literales del enunciado, indicando exposición previa.

Segundo, las pruebas defectuosas. En una auditoría del 27,6% de los fallos, el 59,4% rechazaba soluciones funcionalmente correctas. Un ejemplo: la incidencia #18212 donde había discrepancias entre la descripción del problema y la cobertura de las pruebas. Esto genera falsos negativos que penalizan modelos que realmente resuelven el problema.

¿Qué alternativas existen en 2026?

OpenAI recomienda migrar a SWE-bench Pro, que evalúa agentes de IA en 1865 tareas reales de ingeniería de software en repositorios grandes. Este benchmark se enfoca en comprensión profunda de repositorios, depuración multi-archivo y generación de parches bajo restricciones reales.

La diferencia es significativa. Mientras Claude Mythos alcanza 93,9% en Verified, su puntuación en Pro es 77,8%. Esta brecha de 16 puntos revela que Verified estaba saturado y ya no medía capacidades frontier.

Otras variantes disponibles incluyen:

SWE-bench Multilingual: 300 tareas en 9 lenguajes de programación (Mythos: 87,3%)
SWE-bench Multimodal: 517 tareas con elementos visuales (Mythos: 59,0%)
Terminal-Bench extendido: evaluación de capacidades en terminal (Mythos: 92,1%)

Comparativa de benchmarks: datos de 2026

Los números revelan por qué la migración es necesaria. En early 2025, SWE-bench Verified mostraba alrededor del 50% de resolución. Un año después, los modelos líderes superan el 90%. Esta saturación rápida indica que el benchmark dejó de ser discriminativo.

En contraste, SWE-bench Pro mantiene brechas significativas entre modelos. Claude Mythos lidera con 77,8%, seguido por GPT-5.4 con 57,7% y Gemini 3.1 Pro con 54,2%. Esta distribución permite diferenciar capacidades reales.

OpenAI señala que puntuaciones superiores al 40% en SWE-bench Pro indican habilidad significativa para flujos de trabajo que requieren horas o días para humanos. Este es el threshold que deberías usar como referencia.

¿Qué significa esto para tu startup?

Si tu startup desarrolla software, usa IA para automatización de código, o evalúa modelos para integrar en tu producto, estos cambios te afectan directamente. Basar decisiones en benchmarks contaminados puede llevarte a sobreestimar capacidades y subestimar riesgos de implementación.

Tres acciones concretas para founders:

Migra tus criterios de evaluación a SWE-bench Pro. Si estás seleccionando modelos para tu stack, usa Pro como referencia principal. Busca modelos con >40% como mínimo viable, >60% para casos de uso críticos.
Construye evaluaciones privadas. OpenAI recomienda splits privados con anticontaminación robusta. Crea un conjunto de 20-30 problemas específicos de tu dominio que los modelos no hayan visto. Esto te dará señal real para tu caso de uso.
No confíes en un solo benchmark. Combina SWE-bench Pro con Terminal-Bench y evaluaciones en tu propio código base. La triangulación reduce el riesgo de tomar decisiones basadas en métricas manipuladas o saturadas.

El riesgo de la contaminación para startups

La contaminación de datos no es solo un problema académico. Si tu modelo de IA parece funcionar bien en benchmarks pero falla en producción, el costo lo paga tu startup en reputación, churn de clientes y tiempo de ingeniería.

Startups que priorizan modelos con puntuaciones altas en benchmarks contaminados pueden descubrir que sus agentes de código no generalizan bien a problemas nuevos. La brecha entre 93,9% en Verified y 77,8% en Pro para el mismo modelo (Claude Mythos) ilustra este riesgo.

Para founders en LATAM y España, donde el acceso a capital es más limitado que en Silicon Valley, cada decisión de stack tecnológico tiene mayor impacto. Elegir modelos basados en métricas reales puede significar la diferencia entre un producto que escala y uno que requiere reescritura constante.

Cómo evaluar modelos de IA para tu producto en 2026

Más allá de SWE-bench, establece un proceso de evaluación riguroso:

Define casos de uso específicos de tu producto antes de evaluar modelos
Crea un dataset privado de 50-100 problemas representativos
Mide no solo precisión, sino tiempo de resolución y calidad del código generado
Evalúa capacidad de depuración cuando el modelo comete errores
Testea en repositorios reales, no solo en snippets aislados

La inversión en evaluación propia puede parecer costosa inicialmente, pero reduce el riesgo de integrar modelos que fallan en producción. En el ecosistema startup hispanohablante, donde la eficiencia de capital es crítica, esta disciplina marca la diferencia.

Conclusión

El abandono de SWE-bench Verified por OpenAI es una señal clara: los benchmarks públicos se saturan rápidamente y la contaminación de datos es inevitable cuando los datasets de entrenamiento incluyen código open-source. Para founders, esto significa que debes construir tus propias evaluaciones y usar benchmarks como SWE-bench Pro como referencia secundaria, no como verdad absoluta.

La lección más importante: en IA para software, como en todo lo demás en startups, la validación con datos propios supera cualquier métrica pública. Los benchmarks te dan un punto de partida, pero tu dataset privado y tus casos de uso específicos son lo que determinará el éxito de tu implementación.