CVE-Bench: IA solo explota 13% de vulnerabilidades reales

¿Qué es CVE-Bench y por qué debería importarte como founder?

CVE-Bench es el primer benchmark que evalúa agentes de IA en condiciones reales de ciberseguridad, usando 40 vulnerabilidades críticas (CVEs) de aplicaciones web existentes. Desarrollado por el UIUC Kang Lab y presentado en ICML 2025, este framework revela algo que pocos están discutiendo: incluso los modelos más avanzados de OpenAI y otros proveedores solo logran explotar el 13% de las vulnerabilidades en pruebas controladas.

Para un founder que está evaluando herramientas de seguridad con IA, automatizando pentesting, o construyendo productos que dependen de agentes autónomos, este dato cambia completamente la ecuación de riesgo y confianza.

¿Qué revelan realmente los resultados del benchmark?

El estudio, liderado por Yuxuan Zhu y Daniel Kang, diseñó un entorno sandbox que imita condiciones del mundo real. Los agentes deben identificar, diagnosticar y explotar vulnerabilidades basándose únicamente en advisorys públicos, sin acceso previo al código.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Los hallazgos clave:

Tasa de éxito máxima: 13% en el benchmark completo con los mejores sistemas evaluados
El benchmark incluye dos configuraciones: one-day (con descripción de la vulnerabilidad) y zero-day (sin descripción previa)
Patrones de fallo recurrentes: drift de búsqueda (el agente pierde el hilo de la explotación) y agotamiento de presupuesto (límites de tokens/tiempo)
Un reporte posterior de OpenAI mencionó 80% pass@1 en un subconjunto parcial, pero esto no representa el rendimiento en el benchmark completo

Existe también un CVE-Bench paralelo de NAACL 2025 enfocado en reparación (no explotación), con 509 CVEs en 4 lenguajes de programación, donde SWE-agent logró reparar solo 21% de las vulnerabilidades.

¿Por qué ningún modelo supera el 50% de éxito?

La limitación no es solo técnica, es estructural. Los agentes de IA operan con restricciones que en ciberseguridad son críticas:

Contexto limitado: Un CVE real requiere entender arquitectura, dependencias, y condiciones de explotación que exceden la ventana de contexto de la mayoría de LLMs actuales.

Drift de búsqueda: En tareas multi-paso como una explotación, los agentes tienden a perder el objetivo original después de varias iteraciones, especialmente cuando encuentran errores o respuestas inesperadas del entorno.

Presupuesto agotado: Cada llamada a herramienta, cada intento de explotación consume tokens. En escenarios reales con límites operativos, los agentes se quedan sin 'combustible' antes de completar la tarea.

¿Qué significa esto para tu startup?

Si estás construyendo o usando IA en contextos de seguridad, desarrollo de software, o automatización de tareas críticas, CVE-Bench ofrece tres lecciones prácticas:

1. La autonomía total es una ilusión (por ahora)

Con tasas de éxito del 13-21% en tareas de seguridad, ningún agente puede reemplazar completamente la supervisión humana en pentesting, code review de seguridad, o respuesta a incidentes. Si un vendor te promete lo contrario, pide datos de evaluación en CVEs reales.

2. El riesgo dual es real

Si los agentes pueden explotar vulnerabilidades (aunque sea en 13% de los casos), también significa que actores malintencionados pueden usar IA para acelerar ataques. Tu startup necesita gobernanza: logging de todas las acciones del agente, límites de presupuesto, y controles de qué sistemas puede tocar.

3. Evalúa con benchmarks reales, no demos

Muchas herramientas de 'IA para ciberseguridad' muestran demos cuidadosamente curadas. CVE-Bench demuestra que la evaluación rigurosa con vulnerabilidades reales es la única forma de validar claims. Exige a tus proveedores métricas reproducibles.

Acciones concretas que puedes implementar esta semana

Si usas herramientas de IA para seguridad:

Audita qué CVEs o vulnerabilidades conocidas ha detectado tu herramienta en los últimos 3 meses
Implementa logging obligatorio de todas las acciones del agente (qué llamó, qué intentó, qué resultado obtuvo)
Establece límites de presupuesto por sesión (tokens, tiempo, número de herramientas llamadas)

Si estás construyendo productos con agentes autónomos:

Diseña 'circuit breakers' que detengan al agente después de N intentos fallidos consecutivos
Implementa checkpoints humanos para tareas críticas (ej: antes de desplegar código, antes de modificar producción)
Documenta las limitaciones conocidas de tu agente para usuarios y stakeholders

Si evalúas vendors de IA para seguridad:

Pide resultados en benchmarks públicos (CVE-Bench, SWE-bench, etc.)
Solicita una prueba de concepto con vulnerabilidades de tu propio entorno (en sandbox)
Verifica que el vendor tenga política de divulgación responsable de vulnerabilidades descubiertas por su IA

El contexto más amplio del ecosistema

Este benchmark llega en un momento crítico: 392 startups de IA en España han captado 1.600 millones de euros desde 2020, y muchas están aplicando IA a desarrollo de software y ciberseguridad. En LATAM, startups como Mozart (Uruguay) cerraron US$600.000 en pre-seed en mayo 2026 aplicando IA a procesos empresariales críticos.

La señal del mercado es clara: hay capital y hay demanda. Pero CVE-Bench recuerda que la madurez técnica aún está en etapa temprana para tareas de alta consecuencia. Los founders que entiendan esto y comuniquen limitaciones con transparencia ganarán confianza a largo plazo.