OpenAI abandona SWE-bench Verified: qué usar en 2026
¿Por qué SWE-bench Verified dejó de ser útil?El 93,9% de puntuación que Claude Mythos alcanzó en SWE-bench Verified en 2026 parece impresionante, pero revela un problema crítico: este benchmark ya no distingue entre modelos de IA de vanguardia. OpenAI anunció en febrero de 2026 que abandonará esta métrica porque la contaminación de datos y las …









