MCP Server y tokens: la alternativa CLI para agentes IA

El problema silencioso que ralentiza tus agentes de IA

Si has estado construyendo con Model Context Protocol (MCP) y tus agentes de IA se sienten lentos, costosos o poco confiables, probablemente ya encontraste el culpable: las definiciones de herramientas están devorando tu context window antes de que el agente haga su primera tarea real.

Este no es un problema menor. Cargar la especificación oficial de GitHub MCP cuesta aproximadamente 54.000 tokens solo para que el modelo entienda qué operaciones tiene disponibles. Un agente CLI equivalente que usa el comando gh necesita apenas 562 tokens para lo mismo, consultando la documentación justo cuando la necesita. Eso es una diferencia de casi 100 veces. Y ese overhead se acumula de forma exponencial en loops de agentes donde la misma lógica se repite decenas de veces.

El artículo de Apideck publicado en marzo de 2026 expone este problema con precisión quirúrgica y propone una solución que muchos equipos de producto ya están adoptando: usar CLI como interfaz primaria de agentes, en lugar de cargar esquemas MCP completos en cada sesión.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Por qué MCP tiene un problema estructural con los tokens

El Model Context Protocol fue diseñado para ser un estándar universal que conecta APIs con agentes de IA. La promesa es poderosa: cualquier API puede volverse accesible para un LLM. El problema está en cómo se implementa esa accesibilidad.

Cuando un agente se conecta a un servidor MCP, todas las definiciones de herramientas, sus parámetros, descripciones y esquemas de entrada se inyectan en el contexto del modelo de manera anticipada y completa. Esto significa que antes de ejecutar una sola acción, el agente ya consumió miles de tokens en pura infraestructura.

Un caso documentado por Cloudflare ilustra la magnitud del problema: el servidor MCP equivalente de su API, sin optimización, consumiría 1,17 millones de tokens, superando el context window completo de los modelos más avanzados disponibles hoy. Para resolverlo lanzaron Code Mode, que comprime esa misma API a menos de 1.000 tokens.

El resultado práctico de este overhead es triple:

Mayor costo por operación: cada llamada a la API del LLM incluye miles de tokens de esquema que se repiten en cada turno.
Menor espacio para razonamiento: el modelo dispone de menos contexto útil para procesar el problema real del usuario.
Latencia compuesta: en loops de agentes, el overhead de MCP se multiplica. Lo que es tolerable en una llamada se vuelve prohibitivo en cincuenta.

Los tres enfoques para resolver el problema

El análisis de Apideck y fuentes complementarias identifican tres estrategias principales para atacar el consumo excesivo de tokens en arquitecturas MCP:

1. Compresión MCP y toolsets dinámicos

En lugar de cargar todas las herramientas disponibles en cada sesión, se cargan únicamente las relevantes para la tarea en curso mediante búsqueda semántica o filtrado progresivo. Speakeasy reportó una reducción del 96% en tokens de entrada promedio usando esta estrategia de Dynamic Toolsets. La desventaja es que requiere lógica adicional para decidir qué herramientas cargar, y puede generar errores si las herramientas necesarias no se seleccionaron correctamente.

2. Ejecución de código (Code Mode)

En lugar de describir cada operación como una herramienta MCP, se le entrega al agente la capacidad de escribir y ejecutar código directamente contra la API. Anthropic exploró esta dirección con su investigación sobre code execution with MCP. El modelo razona en código en lugar de en parámetros JSON, lo que reduce drásticamente los tokens de definición. Requiere un entorno de ejecución seguro y confiable, lo cual agrega complejidad operacional.

3. CLI como interfaz de agente

Este es el enfoque que protagoniza el artículo de Apideck y que está ganando tracción en equipos de producto pragmáticos. En lugar de exponer la API a través de un servidor MCP, se construye una interfaz de línea de comandos bien diseñada y se le entrega al agente como herramienta principal. El agente consulta el help de la CLI cuando necesita entender una operación, y ejecuta comandos cuando necesita actuar.

La clave conceptual aquí es la divulgación progresiva: el agente solo paga el costo en tokens cuando realmente necesita información específica, no al inicio de cada sesión.

Las ventajas concretas del enfoque CLI

Los benchmarks publicados por múltiples fuentes en 2026 muestran resultados consistentes a favor de CLI en escenarios de uso frecuente:

28% más de tareas completadas correctamente con el mismo presupuesto de tokens, según pruebas comparativas directas entre agentes CLI y MCP en tareas de automatización.
En una tarea de consulta sobre 50 dispositivos, MCP requirió ~145.000 tokens (incluyendo esquema, razonamiento y múltiples round-trips), mientras que CLI completó la misma tarea en ~4.150 tokens.
Para operaciones de GitHub, el costo de inicio del esquema MCP (~28.000 tokens) contrasta con ~800 tokens totales usando el enfoque CLI.

Más allá de los números, CLI ofrece ventajas cualitativas que importan en producción:

Depuración y observabilidad humana

Los comandos CLI son reproducibles. Un desarrollador puede ejecutar exactamente el mismo comando que ejecutó el agente, ver el mismo output y entender qué salió mal. Esto convierte el debugging en algo intuitivo, sin necesidad de herramientas especializadas como el MCP Inspector.

Seguridad y manejo de credenciales

Las CLIs permiten pre-autenticar en entornos sandbox controlados, manteniendo las credenciales fuera del contexto visible del agente. Esto elimina el riesgo de que claves de API o tokens secretos aparezcan en el razonamiento del modelo, un vector de riesgo real en arquitecturas MCP mal configuradas.

Ecosistema de herramientas existente

Ya existen miles de CLIs maduras y battle-tested: AWS CLI, GitHub CLI, Stripe CLI, Vercel CLI, Supabase CLI. Usarlas como interfaz de agente tiene cero overhead de implementación comparado con construir un servidor MCP desde cero.

Composición nativa

Los agentes pueden encadenar comandos usando pipe, grep y jq para completar flujos complejos en una sola llamada de herramienta. Lo que en MCP requeriría 150 llamadas secuenciales, CLI puede ejecutarlo en una sola cadena de comandos (~500 tokens).

Cuándo CLI no es la mejor opción

Este enfoque no es universalmente superior. Hay contextos donde MCP o alternativas estructuradas siguen siendo la elección correcta:

Operaciones stateful complejas: flujos que requieren mantener estado entre múltiples operaciones, manejar streaming o gestionar suscripciones en tiempo real funcionan mejor con MCP.
Alta confiabilidad en operaciones críticas: pagos, compliance, auditoría financiera. MCP ofrece garantías de tipado y manejo de errores que CLI no puede replicar sin código personalizado adicional.
Salida estructurada obligatoria: cuando el agente necesita consumir JSON validado con esquemas estrictos, MCP tiene ventaja clara sobre el parsing de texto libre de CLI.
APIs con grandes payloads de datos: cuando la respuesta incluye árboles completos de accesibilidad, dumps de base de datos o datasets masivos, la ventaja de eficiencia de CLI desaparece.
Equipos sin experiencia en CLI: construir una buena CLI requiere conocimiento del dominio. Un MCP server bien documentado puede ser más accesible para equipos que priorizan velocidad de implementación.

Lo que esto significa para proveedores de API

Hay una implicación estratégica importante aquí que trasciende la decisión técnica individual: los proveedores de API que quieran ser relevantes en el ecosistema de agentes de IA necesitan repensar cómo exponen sus herramientas.

No basta con ofrecer un servidor MCP. Los equipos más avanzados ya están evaluando sus integraciones por eficiencia de tokens, además de funcionalidad. Las APIs que ofrecen CLIs bien diseñadas, con outputs predecibles y documentación concisa, tienen una ventaja competitiva real frente a aquellas que solo ofrecen servidores MCP con esquemas pesados.

La señal del mercado es clara: Cloudflare ya ofrece Code Mode. Speakeasy redujo el consumo 100x con Dynamic Toolsets. Los proveedores que no optimicen su superficie de integración para agentes de IA verán cómo sus herramientas quedan fuera de contexto, literalmente.

Conclusión

El debate MCP vs. CLI no es un debate de estándares; es un debate de eficiencia y pragmatismo. MCP es el protocolo correcto para muchos casos, pero su implementación actual tiene un costo real en tokens que los equipos de producto no pueden ignorar si están construyendo agentes de IA que escalen.

La alternativa CLI no es un paso atrás tecnológico. Es el reconocimiento de que las herramientas más eficientes son las que dejan más espacio para el razonamiento real. Un agente con 4.000 tokens de overhead piensa mejor que uno con 145.000 tokens de esquema en su contexto.

Para founders que están construyendo sobre IA hoy, la lección es concreta: mide tu presupuesto de tokens por operación, evalúa qué parte de ese presupuesto va a infraestructura y qué parte al problema real, y elige la interfaz que maximice el segundo. En muchos casos, esa interfaz tiene el aspecto de un comando de terminal.

Descubre cómo otros founders implementan estas soluciones de IA y automatizacion en sus productos reales.

Ver casos reales