GPT-5.3-Codex vs Claude Opus 4.6: Guerra de IA para Código

El 5 de febrero de 2026, OpenAI y Anthropic protagonizaron uno de los lanzamientos simultáneos más estratégicos de la historia de la IA: GPT-5.3-Codex y Claude Opus 4.6, respectivamente, salieron al mercado exactamente al mismo tiempo. Ambos modelos representan un salto cualitativo en las capacidades de agentes de IA especializados en desarrollo de software, pero también marcan el inicio de lo que la industria ya llama ‘las guerras de la IA para código’, una batalla por capturar el mercado enterprise de desarrollo de software que mueve miles de millones de dólares.

El modelo que se construyó a sí mismo: GPT-5.3-Codex

OpenAI presentó GPT-5.3-Codex como su agente de codificación más capaz hasta la fecha. Según el CEO Sam Altman, este modelo representa un hito significativo: el equipo utilizó versiones tempranas de GPT-5.3-Codex para depurar sus propias ejecuciones de entrenamiento, gestionar la infraestructura de despliegue y diagnosticar resultados de pruebas. Es, en palabras de la compañía, ‘nuestro primer modelo que fue instrumental en crear su propia versión’.

Esta capacidad de auto-mejora recursiva es un indicador poderoso de hacia dónde se dirige la IA aplicada: modelos que no solo escriben código, sino que optimizan su propio desarrollo.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Benchmarks que marcan distancia: resultados récord

Los números de GPT-5.3-Codex son contundentes. En SWE-Bench Pro, una evaluación rigurosa de ingeniería de software del mundo real que abarca cuatro lenguajes de programación, el modelo alcanza un 57%. En Terminal-Bench 2.0, que mide habilidades esenciales de terminal para agentes de código, logra un impresionante 77.3%, superando el 64% de GPT-5.2-Codex y dejando atrás el 65.4% reportado para Claude Opus 4.6.

En OSWorld, un benchmark que evalúa la capacidad de los agentes para completar tareas de productividad en entornos de escritorio visuales, GPT-5.3-Codex obtiene 64%. Estos resultados no solo son superiores; además se logran con menos de la mitad de tokens que su predecesor para tareas equivalentes, y con una velocidad de inferencia más de 25% superior por token.

Más allá del código: un agente para todo el ciclo de desarrollo

Lo más relevante de GPT-5.3-Codex no son solo sus mejoras en escritura de código, sino su expansión hacia capacidades profesionales más amplias. OpenAI posiciona explícitamente a Codex como ‘un agente que puede hacer casi cualquier cosa que desarrolladores y profesionales pueden hacer en una computadora’.

Esto incluye debugging, despliegue, monitoreo, escritura de documentos de requisitos de producto (PRDs), edición de contenido, investigación de usuarios, creación de presentaciones y análisis de datos en hojas de cálculo. El modelo muestra un rendimiento sólido en GDPVal, una evaluación de OpenAI que mide el desempeño en tareas de trabajo de conocimiento bien especificadas a través de 44 ocupaciones.

Esta expansión no es casual: revela la ambición de OpenAI de capturar no solo el mercado de herramientas para desarrolladores, sino el espacio más amplio del software de productividad empresarial, donde compite con gigantes establecidos como Microsoft, Salesforce y ServiceNow.

Primer modelo de alta capacidad en ciberseguridad: nuevos protocolos de seguridad

El giro hacia capacidades de computación de propósito general trae consigo nuevas consideraciones de seguridad. OpenAI reveló que GPT-5.3-Codex es el primer modelo que clasifica como de ‘Alta capacidad’ para tareas relacionadas con ciberseguridad bajo su Marco de Preparación (Preparedness Framework), y el primero entrenado directamente para identificar vulnerabilidades de software.

‘Si bien no tenemos evidencia definitiva de que pueda automatizar ataques cibernéticos de extremo a extremo, estamos adoptando un enfoque precautorio y desplegando nuestro stack de seguridad en ciberseguridad más completo hasta la fecha’, declaró la compañía. Las mitigaciones incluyen entrenamiento de seguridad de doble uso, monitoreo automatizado, acceso confiable para capacidades avanzadas y pipelines de aplicación que incorporan inteligencia de amenazas.

Sam Altman anunció un compromiso de 10 millones de dólares en créditos de API para acelerar la defensa cibernética, y la expansión de la beta privada de Aardvark, su agente de investigación de seguridad. La compañía también está asociándose con mantenedores de código abierto para ofrecer escaneo gratuito de bases de código en proyectos ampliamente utilizados, citando a Next.js como ejemplo donde un investigador usó Codex para descubrir vulnerabilidades divulgadas recientemente.

La rivalidad se intensifica: Anthropic vs OpenAI

El lanzamiento de GPT-5.3-Codex no puede entenderse sin el contexto de la creciente rivalidad entre OpenAI y Anthropic, la startup enfocada en seguridad de IA fundada en 2021 por ex investigadores de OpenAI, incluidos Dario y Daniela Amodei.

Ambas compañías programaron anuncios importantes para las 10 a.m. hora del Pacífico del mismo día. Anthropic presentó Claude Opus 4.6, que describe como su ‘modelo más inteligente’ que ‘planifica con más cuidado, sostiene tareas agénticas por más tiempo, opera de manera confiable en bases de código masivas y detecta sus propios errores’.

Pero la tensión no se limita a los productos. Anthropic anunció que transmitiría anuncios durante el Super Bowl, burlándose de la reciente decisión de OpenAI de probar anuncios dentro de ChatGPT para usuarios gratuitos. Altman respondió con contundencia, llamando a los anuncios ‘graciosos’ pero ‘claramente deshonestos’.

‘Obviamente, nunca ejecutaríamos anuncios de la manera en que Anthropic los representa. No somos estúpidos y sabemos que nuestros usuarios lo rechazarían’, escribió Altman. ‘Supongo que está en línea con la doble moral de Anthropic usar un anuncio engañoso para criticar anuncios engañosos teóricos que no son reales, pero un anuncio del Super Bowl no es donde esperaría verlo’.

Altman fue más allá, caracterizando a Anthropic como una ‘compañía autoritaria’ que ‘quiere controlar lo que las personas hacen con la IA’, añadiendo: ‘Anthropic sirve un producto costoso a gente rica. Más texanos usan ChatGPT gratis que el total de personas que usan Claude en EE.UU., así que tenemos un problema de forma diferente al de ellos’.

El mercado enterprise: cifras explosivas y cambios en participación

Más allá de las declaraciones públicas, la competencia es letal porque el mercado es gigantesco. Según datos de Andreessen Horowitz (a16z) publicados esta misma semana, el gasto empresarial promedio en modelos de lenguaje grande alcanzó 7 millones de dólares en 2025, un 180% superior al gasto real de 2024 (2.5 millones), y un 56% por encima de lo que las empresas habían proyectado para 2025 solo un año antes. Las proyecciones para 2026 indican un gasto de 11.6 millones de dólares por empresa, un aumento adicional del 65%.

Los datos de a16z revelan dinámicas de mercado que ayudan a explicar la intensidad de la competencia. OpenAI mantiene la mayor participación promedio de la cartera empresarial de IA, pero esa participación está disminuyendo: de 62% en 2024 a un proyectado 53% en 2026. La participación de Anthropic, mientras tanto, ha crecido del 14% al 18% proyectado en el mismo período, con Google mostrando ganancias similares.

Los patrones de adopción empresarial cuentan una historia más matizada. Si bien OpenAI lidera en uso general, solo el 46% de los clientes encuestados están usando sus modelos más capaces en producción, en comparación con el 75% para Anthropic y el 76% para Google. Al incluir entornos de prueba, el 89% de los clientes de Anthropic están probando o usando los modelos más capaces de la compañía, la tasa más alta entre los principales proveedores.

Para desarrollo de software específicamente, uno de los principales casos de uso para ambos agentes de codificación, la encuesta de a16z muestra a OpenAI con aproximadamente 35% de participación de mercado, con Anthropic reclamando una porción sustancial y creciente del resto.

De modelos a plataformas: la batalla por el sistema operativo empresarial

Estas dinámicas de mercado explican por qué ambas compañías se posicionan como plataformas en lugar de meros proveedores de modelos. OpenAI lanzó también Frontier, una nueva plataforma diseñada para servir como un hub integral para empresas que adoptan una variedad de herramientas de IA, incluidas las desarrolladas por terceros, que pueden operar juntas sin problemas.

‘Podemos ser el socio de elección para la transformación de IA para empresas. El cielo es el límite en términos de ingresos que podemos generar desde una plataforma así’, declaró Fidji Simo, CEO de aplicaciones de OpenAI.

Esto sigue al lanzamiento el lunes de la aplicación de escritorio Codex para macOS, que según OpenAI ya ha superado las 500,000 descargas. La aplicación permite a los usuarios gestionar múltiples agentes de codificación de IA simultáneamente, una capacidad que se vuelve cada vez más importante a medida que las empresas despliegan agentes para tareas complejas y prolongadas.

Requisitos financieros estratosféricos: las apuestas detrás de la competencia

Las ambiciones de plataforma requieren capital extraordinario. Los lanzamientos duales subrayan los requisitos financieros asombrosos del desarrollo de IA de frontera, con ambas compañías quemando miles de millones mientras compiten por establecer dominio de mercado.

Anthropic está actualmente en discusiones para una ronda de financiamiento que podría aportar más de 20 mil millones de dólares a una valoración de al menos 350 mil millones de dólares, según Bloomberg, y simultáneamente está planeando una oferta de compra de acciones para empleados a esa misma valoración.

OpenAI, por su parte, ha revelado que debe más de 1 billón de dólares en obligaciones financieras a patrocinadores (incluidos Oracle, Microsoft y Nvidia) que esencialmente están adelantando costos de cómputo en expectativa de retornos futuros.

GPT-5.3-Codex fue ‘co-diseñado para, entrenado con y servido en sistemas NVIDIA GB200 NVL72’, según el anuncio de OpenAI, una referencia a la última arquitectura de supercomputación de IA de generación Blackwell de Nvidia.

La presión financiera añade urgencia a las estrategias empresariales de ambas compañías. A diferencia de gigantes tecnológicos establecidos con flujos de ingresos diversificados, tanto Anthropic como OpenAI deben demostrar que pueden generar ingresos suficientes de productos de IA para justificar sus valoraciones y costos de infraestructura extraordinarios.

Disponibilidad y nuevas características interactivas

GPT-5.3-Codex está disponible inmediatamente para usuarios pagos de ChatGPT en todas las superficies de Codex: la aplicación de escritorio, interfaz de línea de comandos, extensiones IDE e interfaz web. Se espera que el acceso a la API siga pronto.

El modelo incluye una nueva función de interactividad: los usuarios pueden elegir entre personalidades ‘pragmáticas’ o ‘amigables’, una personalización que, según Altman, genera opiniones fuertes entre los usuarios. Más sustancialmente, el modelo proporciona actualizaciones frecuentes de progreso durante las tareas, permitiendo a los usuarios interactuar en tiempo real, hacer preguntas, discutir enfoques y dirigirse hacia soluciones sin perder contexto.

‘En lugar de esperar una salida final, puedes interactuar en tiempo real’, declaró OpenAI. ‘GPT-5.3-Codex habla de lo que está haciendo, responde a retroalimentación y te mantiene al tanto de principio a fin’.

La compañía promete más capacidades en las próximas semanas, con Altman declarando: ‘Creo que Codex va a ganar’.

Conclusión

El lanzamiento simultáneo de GPT-5.3-Codex y Claude Opus 4.6 marca un punto de inflexión en la evolución de la IA aplicada al desarrollo de software. Ya no se trata solo de asistentes de código: ambos modelos aspiran a convertirse en el sistema operativo de facto para equipos de desarrollo y profesionales del conocimiento en general.

Para founders de startups tecnológicas, esta competencia tiene implicaciones directas: más herramientas potentes, más accesibles y más especializadas. Pero también plantea preguntas estratégicas sobre dependencia tecnológica, seguridad, costos y qué plataforma se alinea mejor con los valores y necesidades de cada equipo.

La guerra de la IA para código apenas comienza, y ninguna de las dos compañías tiene intención de ceder terreno. El mensaje de Altman es claro: ‘Este tiempo pertenece a los builders, no a las personas que quieren controlarlos’. Si ese mensaje resuena con clientes empresariales (que según datos de a16z citan confianza, seguridad y cumplimiento como sus principales preocupaciones) aún está por verse. Lo que es indudable es que 2026 será el año en que las herramientas de IA para código definan quién lidera el ecosistema tech en la próxima década.

¿Quieres estar al día con las últimas herramientas de IA que están transformando el desarrollo de software? Únete a nuestra comunidad de founders que comparten estrategias, casos reales y mejores prácticas para implementar IA en sus startups.

Únete gratis ahora