Minions de Stripe: Arquitectura de Agentes de Código con IA

La evolución de los agentes de código en Stripe

En febrero de 2025, Stripe reveló que sus agentes de código autónomos, conocidos como Minions, están generando más de 1,300 pull requests por semana que se fusionan en producción. Lo revolucionario no es solo el volumen, sino que estos PRs contienen código completamente generado por IA, revisado por humanos pero sin una sola línea escrita manualmente por desarrolladores.

En esta segunda parte de su serie técnica, Alistair Gray, ingeniero del equipo Leverage de Stripe, detalla la arquitectura interna que hace posible esta escala de automatización. La clave está en tres pilares: entornos de desarrollo en la nube especializados, un harness de agentes personalizado basado en goose de Block, y un sistema de orquestación único llamado blueprints.

Devboxes: el entorno preparado para agentes

Para que los agentes de código funcionen de forma autónoma a escala, Stripe necesitaba un entorno que fuera paralelizable, predecible y aislado. La solución ya existía en su infraestructura: las devboxes.

Una devbox es una instancia EC2 de AWS que contiene todo el código fuente de Stripe y ejecuta servicios en desarrollo. Los ingenieros humanos ya trabajaban conectándose remotamente vía SSH a estas máquinas desde sus IDEs. La diferencia es que estas devboxes son cattle, not pets: estandarizadas y fáciles de reemplazar, no personalizadas y de larga vida.

La magia está en la velocidad de aprovisionamiento. Stripe logra tener una devbox lista en 10 segundos, clonando repositorios gigantes, precalentando cachés de Bazel y verificación de tipos, e iniciando servicios de generación de código. Este pool de devboxes precalentadas permite que tanto humanos como agentes tengan ambientes de trabajo instantáneos.

Esta infraestructura, construida originalmente para humanos, resultó ser perfecta para agentes: el paralelismo permite ejecutar múltiples minions simultáneamente, la predictibilidad evita conflictos entre agentes, y el aislamiento garantiza que ningún agente pueda actuar destructivamente sobre máquinas privilegiadas.

El harness de agentes: más allá de Cursor y Claude

A finales de 2024, Stripe hizo un fork interno de goose, uno de los primeros agentes de código ampliamente adoptados. A diferencia de herramientas como Cursor o Claude Code que están optimizadas para trabajo supervisado por humanos, Stripe optimizó su versión específicamente para operación completamente autónoma.

Esta autonomía elimina la necesidad de prompts de confirmación. Como los agentes operan en devboxes en cuarentena en el entorno de QA, cualquier error se confina a ese único entorno sin acceso a datos reales de usuarios, servicios de producción o salida de red arbitraria. Los agentes tienen permisos completos dentro de su sandbox.

Optimizaciones específicas de Stripe

El equipo implementó numerosas optimizaciones ajustadas a los sistemas internos de Stripe. La más fundamental fue la creación de un nuevo primitivo de orquestación: los blueprints.

Blueprints: workflows determinísticos con flexibilidad agentic

Los primitivos más comunes para orquestar sistemas LLM son workflows (grafos fijos de pasos) y agentes (loops con herramientas donde el LLM decide el siguiente paso). Los blueprints de Stripe combinan lo mejor de ambos mundos.

Un blueprint es un workflow definido en código que dirige una ejecución de minion. Cada nodo puede ejecutar código determinístico o un loop de agente enfocado en una tarea específica. Es esencialmente una colección de habilidades de agente entrelazadas con código determinístico.

Por ejemplo, el blueprint principal de minions tiene nodos agentic como ‘Implementar tarea’ o ‘Arreglar fallos de CI’, donde el agente tiene amplia libertad para tomar decisiones. Pero también tiene nodos determinísticos como ‘Ejecutar linters configurados’ o ‘Hacer push de cambios’, que no invocan un LLM en absoluto: simplemente ejecutan código.

Esta arquitectura garantiza que ciertas subtareas se completen de forma determinística, ahorrando tokens y reduciendo oportunidades de error. En la práctica, poner LLMs en cajas contenidas se traduce en mayor confiabilidad del sistema completo.

Blueprints personalizados por equipo

Los equipos individuales pueden crear blueprints optimizados para sus necesidades especializadas. Algunos equipos han construido blueprints personalizados para ejecutar migraciones complejas asistidas por LLM que no podrían lograrse con un codemod determinístico tradicional.

Contexto inteligente: archivos de reglas y MCP

En un codebase del tamaño de Stripe, un agente sin guía podría tener problemas siguiendo las mejores prácticas o usando las librerías correctas, incluso con buenos linters. Para resolver esto, Stripe utiliza dos mecanismos de contexto.

Archivos de reglas automáticos

En lugar de saturar el contexto del agente con reglas globales, Stripe usa archivos de contexto limitados a subdirectorios o patrones de archivos específicos, que se adjuntan automáticamente cuando el agente navega el filesystem.

Para evitar duplicación, estandarizaron en el formato de Cursor (.cursorrules), permitiendo que minions, Cursor y Claude Code lean las mismas guías que los ingenieros están creando en el codebase.

Model Context Protocol (MCP)

Para información dinámica que requiere llamadas de red —documentación interna, detalles de tickets, estados de builds, inteligencia de código— Stripe construyó Toolshed, un servidor MCP centralizado.

Toolshed contiene actualmente casi 500 herramientas MCP para sistemas internos y plataformas SaaS que Stripe usa. Todas las herramientas son descubribles automáticamente, y agregar una nueva herramienta a Toolshed la hace disponible instantáneamente para toda la flota de cientos de agentes diferentes de Stripe.

Los minions reciben por defecto un subconjunto intencionalmente pequeño de herramientas, aunque los ingenieros pueden configurar conjuntos adicionales para sus propios minions. Como los minions operan con autonomía completa, Stripe implementó un framework de control de seguridad que asegura que no puedan usar sus herramientas para realizar acciones destructivas.

Iteración eficiente: shift left del feedback

Aunque los minions buscan resolver tareas en un solo intento, necesitan feedback automatizado para iterar y progresar. La batería de más de tres millones de tests de Stripe puede proporcionar este feedback, pero ejecutarlos todos en CI sería costoso.

Stripe opera bajo el principio de ‘shifting feedback left’: si un check automático va a fallar en CI, es mejor detectarlo en el IDE inmediatamente. Por ejemplo, tienen hooks pre-push que arreglan los problemas de lint más comunes en menos de un segundo.

Los minions integran naturalmente con este framework. Ejecutan un subconjunto de linters como nodo determinístico dentro del blueprint antes de hacer push, dando al branch una buena probabilidad de pasar CI en el primer intento.

Para tests completos, el blueprint estándar incluye una iteración contra la suite completa de CI. Después del primer push, se ejecuta CI y se auto-aplican correcciones para tests fallidos. Si hay fallos sin autofix, se envía el fallo a un nodo de agente en el blueprint, dando al minion una segunda oportunidad de arreglar el test localmente. Después del segundo push y ejecución de CI, el branch se envía al operador humano para revisión manual.

¿Por qué solo una o dos rondas de CI?

Hay un balance entre velocidad y completitud. Las ejecuciones de CI cuestan tokens, cómputo y tiempo, y los retornos marginales disminuyen si un LLM itera indefinidamente contra un loop completo de CI. Esta política logra un buen equilibrio entre las consideraciones competitivas.

Conclusión: la sinergia entre productividad humana y agentes

Los minions son solo una de las formas en que Stripe está usando IA para acelerar a sus ingenieros, pero son un excelente ejemplo de cómo pueden combinar conceptos estándar de la industria —como harnesses de agentes y MCP— con su propia mezcla de herramientas e infraestructura interna que han afinado durante años para maximizar la productividad de desarrolladores.

La lección clave: las inversiones en productividad de desarrolladores humanos retornan dividendos en el mundo de los agentes. Ya sea mejorando documentación, entornos de desarrollo o loops de iteración, Stripe ha descubierto una y otra vez que lo que funciona para humanos funciona igual de bien —o mejor— para agentes.

Los minions ya han cambiado el panorama de la ingeniería de software en Stripe. Con más de 1,300 PRs semanales completamente generados por IA, representan una nueva frontera en automatización de desarrollo. Y esto es solo el comienzo: el equipo continúa mejorándolos con lo último y mejor de la industria, adaptado para funcionar a escala de Stripe.

¿Te apasiona implementar IA y automatización en tu startup? Únete a nuestra comunidad de founders que están explorando cómo los agentes de código y otras herramientas de IA pueden multiplicar la productividad de sus equipos tech.

Conectar con founders tech