Lanzamiento de ASSERT: la nueva herramienta de Microsoft
Microsoft acaba de lanzar ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), un framework open-source que permite generar pruebas de comportamiento de IA usando únicamente descripciones en texto natural. La herramienta se publicó el 2 de junio de 2026 y representa un cambio en cómo los equipos de desarrollo validan sistemas de inteligencia artificial.
Para founders que construyen productos con IA, esto significa poder detectar regresiones antes de que lleguen a producción, sin necesidad de escribir cientos de casos de prueba manualmente. El testing de IA dejó de ser opcional: según Anthropic, los equipos más eficaces combinan evals automatizadas, monitorización en producción y revisión humana periódica.
¿Qué es ASSERT y cómo funciona exactamente?
ASSERT convierte especificaciones escritas en lenguaje natural en baterías de pruebas ejecutables. En lugar de codificar cada caso de prueba, describes el comportamiento esperado —por ejemplo, "el asistente debe responder con tono profesional y rechazar solicitudes no autorizadas"— y el sistema genera tests, puntajes y señales de regresión automáticamente.
👥 ¿Quieres ir más allá de la noticia?
En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.
👥 Unirme a la comunidadEl flujo técnico funciona así:
- Redactas una descripción del comportamiento esperado en texto natural
- Un generador de pruebas produce casos de prueba y ejemplos adversariales
- Cada caso se evalúa con un grader que determina pass/fail
- Si el modelo falla, el sistema amplía el árbol de pruebas con nuevas variaciones
Según el repositorio de Microsoft sobre adaptive-testing, el enfoque usa modelos de lenguaje "contra sí mismos" para construir un conjunto de pruebas unitarias adaptadas al modelo que se está evaluando. Cada prueba incluye entrada, salida del modelo, etiqueta pass/fail y una puntuación para el modelo objetivo.
¿Por qué el testing de IA es crítico en 2026?
El mercado de IA en 2026 está transitando del "demo phase" al operationalization phase. Ya no basta con que un modelo funcione en un prototipo: debe mantener comportamiento estable mientras el producto cambia rápidamente. Una regresión en IA puede afectar retención, soporte, confianza y coste operativo casi de inmediato.
Anthropic distingue entre evals de capacidad (qué puede hacer el sistema) y evals de regresión (qué dejó de hacer que antes hacía). Para regresión, el objetivo debe ser casi 100% de pass rate, porque una caída indica un problema real que requiere atención inmediata.
Microsoft enfatiza que, para IA no determinista, hay que evaluar con tolerancias, estructuras y criterios explícitos, no con exactitud literal. Esto es crucial para startups porque el comportamiento de los LLMs varía entre ejecuciones, y necesitas validar rangos aceptables en lugar de coincidencias exactas.
¿Qué alternativas existen en el mercado?
ASSERT compite y complementa otras herramientas del ecosistema:
- LangChain Eval: Evaluación de cadenas y agentes LLM, más centrada en workflows del ecosistema LangChain
- EvalAI: Plataforma para competiciones y benchmarks de ML/AI, menos enfocada en pruebas de regresión de producto
- Arize + Microsoft Foundry: Observabilidad, evaluación continua y experimentación; más fuerte en monitoreo y trazabilidad
- Power Platform Test Engine: Validación de salidas no deterministas, pero acotado a Power Platform
La ventaja diferencial de ASSERT es su orientación a regresión y descubrimiento de casos que rompen el comportamiento esperado, combinado con ser open-source y agnóstico al stack tecnológico.
¿Qué significa esto para tu startup?
Si tu startup desarrolla productos con IA, ASSERT resuelve tres dolores concretos:
1. Reduce el coste de escribir tests manuales. En equipos pequeños, cada hora cuenta. Convertir conocimiento de producto en especificaciones testeables te permite escalar la validación sin escalar el equipo de QA.
2. Evita regresiones silenciosas. Cuando cambias de modelo, prompt, RAG o tool-use, ASSERT detecta automáticamente qué comportamientos se rompieron. Esto es crítico porque una regresión en producción puede costarte clientes enterprise que exigen fiabilidad.
3. Aporta defensibilidad ante clientes. Poder demostrar calidad, fiabilidad y gobernanza con evals automatizadas es un diferenciador en ventas B2B. Los compradores enterprise ya preguntan por procesos de testing de IA en sus due diligences.
Acciones concretas para implementar esta semana
Acción 1: Documenta 3 comportamientos críticos de tu producto
Identifica los 3 flujos de IA que, si fallan, impactan directamente la experiencia del usuario o generan soporte. Ejemplo: "el chatbot debe escalar a humano cuando detecta frustración del cliente". Escribe cada uno como especificación en texto natural.
Acción 2: Configura ASSERT en tu pipeline CI/CD
Clona el repositorio de Microsoft en GitHub e integra las pruebas en tu flujo de deployment. Ejecuta los tests antes de cada merge a main. Esto te da una red de seguridad antes de que los cambios lleguen a producción.
Acción 3: Establece thresholds de pass rate
Para evals de regresión, apunta a >95% pass rate. Si cae por debajo, bloquea el deployment y revisa qué cambio rompió el comportamiento. Para evals de capacidad, establece líneas base y monitorea tendencias semanales.
Conclusión
ASSERT de Microsoft representa la maduración del testing de IA: de evaluaciones manuales y ad hoc a frameworks automatizados y spec-driven. Para founders, la pregunta ya no es "¿deberíamos testear nuestra IA?" sino "¿qué tan rápido podemos implementar evals continuas antes de que una regresión nos cueste un cliente clave?"
El ecosistema hispanohablante de startups tiene una oportunidad: adoptar estas prácticas ahora, mientras muchos competidores aún dependen de testing manual. La diferencia en velocidad de iteración y confianza del cliente será notable en 6-12 meses.
¿Ya implementas testing automatizado en tus productos de IA? Únete gratis a la comunidad de Ecosistema Startup, donde +10.000 founders comparten casos reales, herramientas y lecciones aprendidas implementando IA en sus negocios. Accede a recursos exclusivos, webinars con expertos y conecta con peers que enfrentan los mismos retos.
Fuentes
- https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/ (fuente original)
- https://github.com/microsoft/adaptive-testing (repositorio oficial)
- https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents (metodología de evals)
- https://arize.com/blog/evaluating-and-improving-ai-agents-at-scale-with-microsoft-foundry/ (evaluación a escala)
- https://developer.microsoft.com/blog/spec-driven-development-spec-kit (desarrollo spec-driven)
👥 ¿Quieres ir más allá de la noticia?
En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.
👥 Unirme a la comunidad













