Memento-Skills: agentes IA que aprenden solos

El gran problema de los agentes IA en producción: adaptarse sin romper todo

Si alguna vez has intentado desplegar un agente de inteligencia artificial en un entorno real, sabes que el mayor dolor de cabeza no es construirlo; es mantenerlo funcionando cuando el mundo cambia. Los modelos de lenguaje grande (LLMs) una vez desplegados quedan con sus parámetros congelados. Aprenden en el entrenamiento, pero en producción están esencialmente estáticos. Cualquier ajuste implica fine-tuning costoso, ciclos largos de datos y equipos de ML dedicados. Para la mayoría de las startups, eso es sencillamente inviable.

Ahí es donde entra Memento-Skills, un nuevo framework desarrollado por investigadores de múltiples universidades que propone una solución elegante: dejar que los propios agentes reescriban sus habilidades sin tocar el modelo base. La investigación fue publicada en arXiv (2603.18743) y cubierta en detalle por VentureBeat. Jun Wang, co-autor del paper, lo resume bien: el framework añade capacidad de aprendizaje continuo a los sistemas existentes en el mercado, como OpenClaw y Claude Code.

Qué es Memento-Skills y cómo funciona

Memento-Skills actúa como una memoria externa evolutiva. En lugar de modificar los pesos del modelo subyacente, el sistema mantiene un conjunto de habilidades almacenadas como archivos Markdown estructurados, que el agente puede leer, ejecutar y reescribir conforme recibe retroalimentación del entorno.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Cada habilidad reutilizable está compuesta por tres elementos clave:

Especificaciones declarativas: describen qué hace la habilidad y cuándo usarla.
Instrucciones y prompts especializados: guían el razonamiento del modelo de lenguaje.
Código ejecutable y scripts auxiliares: los componentes concretos que el agente corre para resolver la tarea.

Esta arquitectura modular permite que un agente aprenda progresivamente, agregando habilidades nuevas o mejorando las existentes, sin necesidad de tocar una sola línea del modelo base. Para equipos con recursos limitados —la realidad de la mayoría de startups en LATAM— esto representa un cambio fundamental en la ecuación de costos.

El mecanismo Read-Write Reflective Learning: aprendizaje como política activa

El corazón de Memento-Skills es su mecanismo llamado Read-Write Reflective Learning, que reformula la actualización de memoria como una iteración activa de política en lugar de un simple log pasivo. El ciclo funciona así:

Read (Lectura): ante una nueva tarea, el agente consulta un router especializado de habilidades para recuperar la más relevante. Aquí está una de las innovaciones clave: no busca la habilidad semánticamente más similar, sino la más útil a nivel de comportamiento.
Execute (Ejecución): el agente corre la habilidad y recibe feedback del entorno.
Write (Escritura reflexiva): si la ejecución falla, un orquestador evalúa el trace y reescribe directamente los artefactos de la habilidad —el código o los prompts— para corregir el modo de fallo específico. Si la tarea es completamente nueva, crea una habilidad desde cero.

Para protegerse de regresiones en producción, cada mutación automática de habilidades pasa por un gate de pruebas unitarias automáticas: el sistema genera un caso de prueba sintético, lo ejecuta con la habilidad actualizada y solo guarda los cambios si los resultados son correctos. En palabras de Jun Wang: «El verdadero valor de una habilidad reside en cómo contribuye al flujo de trabajo agéntico y a la ejecución downstream».

Por qué RAG estándar no es suficiente para agentes que evolucionan

Uno de los problemas más ignorados en los sistemas de agentes actuales es cómo recuperan conocimiento. Los sistemas RAG (Retrieval-Augmented Generation) tradicionales confían en similitud semántica mediante embeddings densos. El problema: alta similitud semántica no garantiza utilidad comportamental.

Wang lo ilustra con un ejemplo concreto: un agente que usa RAG estándar podría recuperar un script de «reseteo de contraseña» para resolver una consulta de «procesamiento de reembolsos», simplemente porque ambos documentos comparten terminología empresarial. Memento-Skills resuelve esto entrenando su router de habilidades mediante un proceso de aprendizaje por refuerzo offline en un solo paso, usando feedback de ejecución real en lugar de superposición de texto. Los resultados hablan por sí solos: el router de Memento-Skills eleva la tasa de éxito de tareas al 80%, frente al 50% del BM25 estándar.

Resultados en benchmarks: números que justifican la atención

El equipo evaluó el framework en dos benchmarks de alto rigor, con Gemini-3.1-Flash como modelo base congelado:

GAIA (General AI Assistants)

Este benchmark exige razonamiento multi-paso complejo, manejo de multi-modalidad, navegación web y uso de herramientas. Memento-Skills alcanzó un 66.0% de precisión frente al 52.3% del baseline estático, una mejora de 13.7 puntos porcentuales. Partiendo de solo 5 habilidades semilla (búsqueda web básica, operaciones de terminal), el agente expandió su biblioteca de forma autónoma hasta 41 habilidades distintas.

HLE (Humanity’s Last Exam)

Un benchmark de nivel experto con ocho disciplinas académicas —matemáticas, biología y más. La estructura del dominio permitía alta reutilización de habilidades entre tareas, y el resultado fue espectacular: Memento-Skills más que duplicó el rendimiento del baseline, pasando de 17.9% a 38.7%. La biblioteca de habilidades escaló dinámicamente hasta 235 skills distintas.

Estos números validan una intuición central: la memoria activa y evolutiva supera ampliamente a una biblioteca estática de habilidades, especialmente cuando las tareas comparten estructura subyacente.

Dónde tiene sentido desplegar Memento-Skills hoy

Para founders y arquitectos de soluciones IA, la pregunta no es si el framework funciona —los benchmarks son claros— sino dónde desplegarlo primero. La guía práctica de Wang es directa:

Ideal para workflows estructurados

El sistema brilla cuando los agentes enfrentan tareas que comparten estructura. Si tus agentes procesan variaciones del mismo tipo de flujo —reportes financieros, onboarding de clientes, soporte técnico nivel 1— la reutilización de habilidades entre tareas hace que el aprendizaje sea exponencialmente más eficiente. «Los workflows son probablemente el entorno más apropiado para este enfoque, ya que proveen un ambiente estructurado donde las habilidades pueden componerse, evaluarse y mejorarse», afirma Wang.

Limitado para tareas aisladas o de largo horizonte

Si tus agentes abordan tareas completamente distintas entre sí, la transferencia de conocimiento es mínima y el sistema aporta menos valor. Para tareas de largo horizonte con secuencias extendidas de decisiones, Wang recomienda considerar enfoques multi-agente que permitan mayor coordinación y planificación.

Agentes físicos: terreno aún inexplorado

El paper es honesto: los agentes físicos (robótica, automatización de hardware) aún requieren mayor investigación para este framework. No despliegues sin validación previa en ese contexto.

Gobernanza: el elefante en la sala de las empresas

A medida que la industria avanza hacia agentes que reescriben autónomamente su propio código en producción, la gobernanza se vuelve crítica. Memento-Skills implementa salvaguardas básicas mediante las pruebas unitarias automáticas, pero Wang reconoce que se necesita más: «En lugar de permitir auto-modificación sin restricciones, el proceso debe estructurarse como una forma guiada de auto-desarrollo, donde el feedback orienta al agente hacia mejores diseños».

Para equipos que ya trabajan con compliance, auditorías o regulaciones sectoriales —fintech, healthtech, edtech— esto implica diseñar capas adicionales de validación antes de adoptar el framework en producción completa. El código está disponible públicamente en GitHub (Memento-Teams/Memento-Skills) para que puedas explorarlo y adaptarlo a tus necesidades.

Qué significa esto para founders que construyen con IA hoy

Memento-Skills no es solo un paper académico interesante; es una señal clara de hacia dónde va la infraestructura de agentes. El paradigma de «entrena una vez, despliega para siempre» está siendo reemplazado por sistemas que aprenden continuamente en producción, sin el costo prohibitivo del reentrenamiento.

Para founders en LATAM que están construyendo sobre LLMs, esto abre oportunidades concretas:

Reducción de costos operativos: elimina ciclos costosos de fine-tuning para adaptar agentes a cambios del negocio.
Velocidad de iteración: los agentes se mejoran solos en producción, acelerando el ciclo de aprendizaje del producto.
Ventaja competitiva sostenible: un agente que acumula habilidades especializadas en tu dominio es un activo difícil de replicar.
Menor dependencia de equipos ML grandes: el framework reduce la necesidad de intervención humana constante para mantener el agente relevante.

La clave está en elegir bien el dominio inicial: workflows repetitivos con estructura común son el punto de entrada ideal para capturar el máximo valor desde el día uno.

Conclusión

Memento-Skills representa un paso significativo en la madurez de los agentes autónomos. Al separar el aprendizaje continuo del reentrenamiento del modelo base, el framework democratiza la adaptabilidad para equipos que no pueden permitirse ciclos costosos de ML. Los resultados en GAIA (+13.7 pp) y HLE (más del doble del baseline) son suficientemente contundentes como para tomarlo en serio.

Para founders que ya están construyendo con agentes IA —o evaluando hacerlo— la pregunta no es si este tipo de arquitectura llegará a dominar el mercado. La pregunta es cuándo empiezas a experimentar con ella en tu propio stack. El código es open source, el paper es público, y el momento de aprender es ahora.

Descubre cómo otros founders implementan agentes IA y automatización en sus productos. Únete gratis a la comunidad de Ecosistema Startup.

Únete gratis