Seguridad de agentes IA: zero trust y aislamiento de credenciales

El problema que nadie quiere ver: las credenciales de tus agentes IA conviven con código no confiable

Si tu empresa ya despliega agentes de inteligencia artificial —o está en proceso de hacerlo— hay una pregunta de seguridad que probablemente no estás respondiendo bien todavía: ¿dónde viven las credenciales que le dan poder a esos agentes?

La respuesta, en la mayoría de los entornos actuales, es incómoda: en el mismo contenedor que el código que ejecutan. Y ese código, en muchos casos, puede ser influenciado, manipulado o directamente comprometido desde el exterior. El resultado es lo que los equipos de seguridad llaman blast radius: el radio de daño que un atacante puede desencadenar una vez que accede a esas credenciales.

Dos nuevas arquitecturas, impulsadas por Anthropic y Nvidia (con su framework NemoClaw), proponen formas concretas de contener ese radio. Vale la pena entenderlas si lideras una startup tecnológica o gestionas infraestructura de IA en producción.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Por qué los agentes IA son un vector de ataque diferente al tradicional

Los modelos de seguridad clásicos asumen que, una vez autenticado, un sistema puede operar con relativa libertad dentro de sus permisos. Eso funcionaba bien cuando los sistemas eran deterministas. Los agentes IA no lo son.

Un agente puede recibir instrucciones a través de un documento envenenado, una página web manipulada o un prompt de un usuario malicioso. A partir de ahí, improvisa. Y si sus credenciales están al alcance —llaves de API, tokens de acceso, roles IAM— ese agente puede convertirse en un vector de ataque altamente privilegiado sin que nadie lo haya autorizado explícitamente.

Según análisis de SecurityWeek, cuando un atacante compromete las credenciales de un agente IA, el impacto no se limita al robo de datos: puede extenderse a ejecución de código remoto, modificaciones en repositorios, llamadas a APIs de producción y escalada de privilegios en cascada. El acceso a un token de GitHub puede derivar en un push malicioso a producción en AWS. Eso es blast radius real.

El punto ciego más común: confundir autenticación con autorización

Uno de los errores más frecuentes que señalan los equipos de seguridad es asumir que, si el agente pasó el proceso de autenticación, ya está controlado. El riesgo real empieza después de la autenticación, como documenta PenLigent AI en su análisis de seguridad para entornos agenticos.

La inyección de prompts —que muchos tratan como un problema de calidad del modelo— es en realidad una falla de gobernanza. Si el agente puede ser manipulado para ejecutar acciones no previstas con credenciales válidas, el sistema de seguridad falló, no el modelo.

Los tres vectores de riesgo más críticos

Prompt injection: instrucciones maliciosas embebidas en datos externos (PDFs, webs, emails) que redirigen el comportamiento del agente.
Standing access o acceso permanente: credenciales que no expiran y están disponibles en todo momento, ampliando el tiempo de exposición.
Cohabitación de credenciales y código no confiable: el agente ejecuta código dinámico en el mismo entorno donde se almacenan sus llaves de acceso.

Arquitectura Anthropic: un segundo punto de decisión antes de actuar

La propuesta de Anthropic introduce lo que puede describirse como un segundo punto de decisión cerca del momento de ejecución. En lugar de delegar toda la autorización al momento de autenticación inicial, el sistema evalúa en tiempo real si una acción de alto riesgo debe proceder.

Esto separa autenticación de autorización mediante políticas contextuales: el agente sabe quién es, pero no puede actuar de forma autónoma en acciones críticas sin pasar por una capa de verificación adicional. La clave está en que esta evaluación ocurre justo antes de la ejecución, no en el momento del login.

Para startups que construyen productos sobre la API de Anthropic o que usan modelos Claude en producción, esto significa que la arquitectura subyacente ya contempla un modelo de confianza más granular. Pero implementarlo correctamente requiere diseñarlo desde el inicio del flujo de datos.

Nvidia NemoClaw: controladores de admisión para cada llamada a herramientas

El enfoque de Nvidia con NemoClaw se centra en los tool-call admission controllers: controladores de admisión que interceptan cada llamada a una herramienta o API antes de permitir su ejecución. Funcionan como una capa de validación independiente que verifica:

El alcance autorizado de la acción (scope).
El tenant o contexto organizacional desde donde se origina.
Los límites de frecuencia (rate limits).
El destino de la llamada y sus posibles efectos secundarios.

Este enfoque impide que el código no confiable acceda directamente a las credenciales del agente. Las credenciales nunca están expuestas al entorno de ejecución dinámico; el controlador actúa como intermediario. BeyondTrust Phantom Labs ha identificado vulnerabilidades similares en entornos como AWS Bedrock, donde la ausencia de este tipo de controles amplifica significativamente el blast radius potencial.

Zero Trust aplicado a agentes IA: más allá del IAM tradicional

El modelo de Zero Trust —nunca confiar, siempre verificar— adquiere una dimensión nueva cuando el actor no es un humano sino un agente autónomo. Las soluciones de identidad clásicas (IAM) no están diseñadas para gestionar entidades que ejecutan cientos de acciones por minuto con contexto cambiante.

Las prácticas más avanzadas que están adoptando equipos de seguridad empresarial incluyen:

Zero Standing Privilege (ZSP)

Eliminar el acceso permanente. Los permisos se otorgan justo a tiempo (just-in-time access) para una tarea específica y se revocan automáticamente al completarla. Herramientas como SGNL implementan motores de autorización en tiempo real que revocan credenciales dinámicamente según el contexto operativo.

Grafos de acción por agente

CyCognito y otros referentes de seguridad en IA proponen modelar explícitamente el blast radius de cada agente mediante grafos de acción: un mapa que conecta herramientas disponibles → sistemas accesibles → clases de datos → efectos secundarios posibles. Este modelo permite priorizar qué acciones requieren aprobación humana y cuáles pueden ejecutarse de forma autónoma.

Clasificación de identidades de máquina

No todos los agentes son iguales. Un agente transiente (que vive por segundos para completar una tarea) tiene un perfil de riesgo muy distinto al de un agente persistente que gestiona procesos de negocio. Las políticas de seguridad deben reflejar esa diferencia.

Buenas prácticas para founders que ya operan agentes IA

Si tu startup ya tiene agentes en producción o está próxima a lanzarlos, aquí están las acciones concretas de mayor impacto:

Audita dónde viven tus credenciales hoy. Si están en el mismo entorno de ejecución que el código del agente, tienes un problema estructural.
Implementa logging exhaustivo de todas las acciones del agente: cada llamada a herramienta, cada API invocada, cada decisión tomada.
Elimina el standing access: usa tokens de vida corta y mecanismos de revocación dinámica.
Modela el blast radius de cada agente antes de darle acceso a sistemas críticos. Si no puedes describir el peor escenario posible, no estás listo para producción.
Aplica el principio de mínimo privilegio de forma estricta: el agente solo debe poder hacer lo que necesita hacer en ese momento específico.
Diseña puntos de aprobación humana para acciones de alto riesgo (modificaciones en código, cambios en infraestructura, acceso a datos sensibles).

El contexto empresarial: la mayoría de las organizaciones no está lista

Microsoft advierte que, a medida que el paradigma agentico se generaliza, el blast radius de los agentes IA crece exponencialmente respecto al de los sistemas de IA anteriores. Y la mayoría de las organizaciones aún no tiene los controles de gobernanza necesarios para gestionarlo.

Para las startups, esto es a la vez un riesgo y una oportunidad. Un riesgo porque construir rápido sin pensar en seguridad desde el diseño puede crear vulnerabilidades graves a escala. Una oportunidad porque las empresas que resuelvan esto bien —que hagan del aislamiento de credenciales y el zero trust parte del producto, no un parche posterior— tendrán una ventaja competitiva real en mercados regulados y con clientes enterprise.

Conclusión

Las dos arquitecturas presentadas por Anthropic y Nvidia con NemoClaw no son solo avances técnicos: son señales de que la industria está reconociendo que los modelos de seguridad tradicionales no escalan para entornos agenticos. El aislamiento de credenciales, los controladores de admisión y el acceso justo a tiempo son los pilares de la próxima generación de infraestructura IA segura.

Para los founders que construyen sobre agentes IA, el mensaje es claro: la seguridad no puede ser una iteración posterior. El radio de daño potencial de un agente comprometido es demasiado amplio para gestionarlo de forma reactiva. Diseña el blast radius desde el primer sprint.

Descubre cómo otros founders implementan IA segura y escalable en produccion. Comparte aprendizajes reales con una comunidad que ya paso por estos desafios.

Aprender con founders