6 exploits rompieron agentes de IA: protege tu startup

¿Qué vulnerabilidades críticas se descubrieron en los agentes de IA?

Seis exploits diferentes comprometieron en nueve meses a Codex, Claude Code, Copilot y Vertex AI. El patrón fue idéntico en todos los casos: el agente de IA tenía credenciales, ejecutó una acción y se autenticó en un sistema de producción sin una sesión humana que anclara la solicitud.

El CVE-2025-53773 (EchoLeak) contra GitHub Copilot permitió ejecución remota de código con puntuación CVSS 9.3. Instrucciones ocultas en descripciones de pull requests activaron el modo de aprobación automática, deshabilitando todas las confirmaciones y otorgando ejecución de shell sin restricciones en Windows, macOS y Linux.

En Claude Code, dos CVE críticos expusieron el sandbox: CVE-2026-25723 permitió que comandos sed y echo escaparan las restricciones de escritura, mientras que CVE-2026-33068 resolvió modos de permiso antes de mostrar el diálogo de confianza del workspace. Un bypass adicional de 50 subcomandos hizo que Claude Code ignorara silenciosamente sus propias reglas de denegación.

🤖 La IA no es solo para leer sobre ella

En la comunidad la aplicamos: automatización, agentes IA y herramientas reales para emprender, no solo para informarte.

👥 Aplicarla en la comunidad

¿Cómo funcionó el exploit de OpenAI Codex?

Investigadores de BeyondTrust demostraron que un nombre de rama de GitHub craftado podía robar el token OAuth de Codex en texto claro. La vulnerabilidad clasificada como Critical P1 por OpenAI aprovechaba que el parámetro del nombre de rama fluía sin sanitizar hacia el script de configuración durante el clonado de repositorios.

Un punto y coma y un subshell con backticks convertían el nombre de rama en un payload de exfiltración. La técnica incluía 94 caracteres de espacio ideográfico (Unicode U+3000) después de "main", haciendo que la rama maliciosa se viera idéntica a la rama main estándar en el portal web de Codex. El desarrollador veía "main". La shell veía curl exfiltrando su token.

OpenAI completó la remediación completa el 5 de febrero de 2026, pero el daño ya estaba hecho: la superficie de ataque había quedado expuesta durante meses.

¿Por qué Vertex AI funcionaba como un "agente doble"?

El investigador Ofir Shaty de Unit 42 (Palo Alto Networks) encontró que la identidad de servicio de Google predeterminada adjunta a cada agente de Vertex AI tenía permisos excesivos. Las credenciales P4SA robadas otorgaban acceso de lectura sin restricciones a cada bucket de Cloud Storage en el proyecto.

Más crítico aún: alcanzaba repositorios de Artifact Registry restringidos y propiedad de Google en el núcleo del Vertex AI Reasoning Engine. Shaty describió el P4SA comprometido como un "agente doble", con acceso tanto a datos del usuario como a la infraestructura propia de Google.

Los scopes de OAuth no eran editables por defecto. El principio de mínimo privilegio estaba violado por diseño desde el inicio.

¿Qué significa esto para tu startup?

Si tu startup usa agentes de IA para desarrollo de código, estás operando con una superficie de ataque que el 78% de los CISOs no tienen inventariada. Los agentes de IA de codificación son invisibles para IAM, CMDB y gestión de activos. Cero gobernanza existe actualmente.

El Sonar 2026 State of Code Developer Survey encontró que 25% de desarrolladores usan agentes de IA regularmente, y 64% han comenzado a usarlos. Veracode testeó más de 100 LLMs y encontró que 45% de las muestras de código generado introducían fallas del OWASP Top 10. Esto se combina con la brecha de credenciales en runtime para crear un riesgo compuesto.

Mike Riemer, CTO de Ivanti, advirtió en entrevista exclusiva: "Actores de amenazas están haciendo ingeniería inversa de parches en 72 horas. Si un cliente no parcha en 72 horas tras el lanzamiento, está abierto a exploit." Los agentes comprimen esa ventana a segundos.

Acciones concretas que debes implementar esta semana

Inventario urgente de agentes de IA (CIEM): Lista Codex, Claude Code, Copilot, Cursor, Gemini Code Assist y Windsurf que usas. Documenta las credenciales y scopes de OAuth que cada uno recibió al configurarse. Si tu CMDB no tiene categoría para identidades de agentes de IA, créala hoy.
Audita scopes de OAuth y niveles de parche: Actualiza Claude Code a versión 2.1.90 o posterior. Verifica que Copilot tenga el parche de agosto 2025. Migra Vertex AI al modelo bring-your-own-service-account.
Trata todo input de repositorio como no confiable: Nombres de ramas, descripciones de pull requests, issues de GitHub y configuración de repos son vectores de ataque. Monitorea ofuscación Unicode (U+3000), encadenamiento de comandos sobre 50 subcomandos, y cambios a .vscode/settings.json o .claude/settings.json que modifiquen modos de permiso.
Gobernaza identidades de agente como identidades privilegiadas humanas (PAM/IGA): Rotación de credenciales, scoping de mínimo privilegio, separación de deberes entre el agente que escribe código y el que despliega. Gravitee's 2026 survey encontró que solo 21.9% de equipos lo han hecho.
Valida antes de comunicar: Antes de que cualquier agente de IA se autentique a GitHub, Gmail o un repositorio interno, verifica la identidad del agente, su scope y la sesión humana a la que está vinculado.

¿Qué preguntarle a tu proveedor antes de la próxima renovación?

Exige por escrito: "Muéstrame los controles de ciclo de vida de identidad para el agente de IA corriendo en mi entorno, incluyendo scope de credenciales, política de rotación y trail de auditoría de permisos."

Si el proveedor no puede responder, ese es tu hallazgo de auditoría. No aceptes interfaces aprobadas sin entender el sistema subyacente. Como señaló Merritt Baer, CSO de Enkrypt AI y ex Deputy CISO de AWS: "Las empresas creen que han 'aprobado' vendors de IA, pero lo que realmente aprobaron es una interfaz, no el sistema subyacente."

La brecha de gobernanza en tres frases

La mayoría de CISOs inventarían cada identidad humana y tienen cero inventario de los agentes de IA corriendo con credenciales equivalentes. Ningún framework IAM gobierna la escalación de privilegios humana y la escalación de privilegios de agentes con el mismo rigor. La mayoría de scanners rastrean cada CVE pero no pueden alertar cuando un nombre de rama exfiltra un token de GitHub a través de un contenedor que los desarrolladores confían por defecto.

Elia Zaitsev, CTO de CrowdStrike, fue blunt en RSAC 2026: colapsa identidades de agente de vuelta al humano. Un agente actuando en tu nombre nunca debería tener más privilegios que tú. El costo de no hacerlo ahora es catastrófico.