OpenAI GPT-5: 4 instrucciones para frenar los goblin outputs

¿Qué son exactamente los «goblin outputs» en GPT-5?

En abril de 2026, OpenAI tuvo que insertar cuatro veces la misma instrucción en el código de Codex para evitar que GPT-5.5 mencionara goblins, gremlins y otras criaturas en respuestas que no lo requerían. Este fenómeno, bautizado como «goblin outputs», revela un problema técnico poco común en el despliegue de modelos de IA en producción.

Los «goblin outputs» son referencias inesperadas a criaturas míticas (goblins, gremlins, trolls, ogres, mapaches) que el modelo insertaba en contextos irrelevantes. Usuarios reportaron frases como «filthy neon sparkle goblin mode» en recomendaciones de cámaras, «goblin bandwidth» en explicaciones técnicas, y «perf gremlin» en análisis de código.

¿Cómo se detectó el problema y cuál fue el timeline?

El problema emergió públicamente en abril de 2026 cuando usuarios en X (Twitter) comenzaron a compartir capturas de conversaciones con GPT-5.5 donde el modelo mencionaba goblins sin razón aparente. Arena.ai detectó un aumento notable en el uso de palabras como «goblin», «gremlin» y «troll», especialmente cuando los usuarios no activaban el «high-thinking mode».

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Un ingeniero de OpenAI respondió públicamente en X: «I thought we fixed this sorry», confirmando que el equipo ya había intentado corregir el comportamiento anteriormente. Sam Altman también mencionó un «goblin moment» en Codex, validando que el problema era conocido internamente.

La revelación más sorprendente llegó cuando se descubrió el código en models.json de Codex: la instrucción para prohibir menciones a criaturas estaba duplicada dos veces consecutivas, repetida cuatro veces en total. Esto indica que los filtros iniciales no fueron suficientes y requirieron refuerzo múltiple.

¿Cuál es la causa raíz técnica detrás de este comportamiento?

El modelo subyacente de GPT-5.5 mostraba una tendencia inherente a usar analogías con criaturas para explicar conceptos técnicos. Por ejemplo, comparaba bugs de código con gremlins o describía procesos con referencias a goblins. Este comportamiento persistía incluso después de los prompts iniciales del sistema.

El problema ocurre con mayor frecuencia en entornos de codificación sin filtros pesados, donde el modelo tiene más libertad creativa. Lo que OpenAI considera un «spark» original del modelo —su personalidad natural— terminó siendo sanitizado mediante instrucciones explícitas repetidas en el JSON del sistema.

Este caso ilustra un desafío fundamental en el desarrollo de IA: el equilibrio entre consistencia y personalidad. Los filtros excesivos producen respuestas más predecibles pero menos naturales, mientras que menos restricciones permiten comportamientos inesperados como los «goblin outputs».

¿Qué impacto tiene esto para empresas que usan APIs de IA en producción?

El impacto principal fue anecdótico y memético, generando risas y screenshots en redes sociales. Sin embargo, para empresas usando la API de GPT-5.5 o Codex en producción, las implicaciones son más serias:

Distracción en tareas de codificación: Analogías irrelevantes a gremlins en explicaciones de bugs pueden confundir a desarrolladores junior
Comportamiento inconsistente entre versiones: Los ajustes en prompts del sistema pueden cambiar el tono de las respuestas sin aviso previo
Trade-off entre personalidad y consistencia: Después de los filtros, usuarios notaron respuestas más «robóticas» pero más predecibles

No se reportaron impactos financieros o de producción significativos, pero el caso sirve como advertencia sobre la importancia de monitorear salidas de IA en entornos críticos.

¿Existen casos similares en otros modelos de IA?

Anthropic con su modelo Claude Opus 4.7 representa el enfoque contrario: mantiene más «autonomía» sin filtros tan estrictos como el «gremlin filter» de OpenAI. Usuarios reportan flujos más naturales en tareas de diseño y código, aunque con mayor variabilidad en las respuestas.

Es importante distinguir este bug del término «Research Goblin», un apodo positivo que la comunidad dio a las capacidades de búsqueda de GPT-5 Thinking. En ese caso, «goblin» se usa de forma intencional y metafórica, no como un comportamiento no deseado.

No se documentaron casos idénticos en Google u otros proveedores principales, sugiriendo que el problema es específico de la arquitectura o entrenamiento de GPT-5.5.

¿Qué significa esto para tu startup?

Si tu startup usa APIs de IA en producción, este caso ofrece lecciones prácticas que puedes implementar inmediatamente:

1. Implementa monitoreo de salidas en tiempo real

Usa herramientas tipo Arena.ai para rastrear frecuencia de palabras clave inusuales en las respuestas de tu modelo
Configura alertas cuando patrones específicos (como menciones a criaturas, términos técnicos fuera de contexto) superen umbrales definidos
Documenta versiones de modelos y cambios en comportamiento entre actualizaciones

2. Evalúa el trade-off entre consistencia y personalidad

Para aplicaciones críticas (soporte al cliente, código en producción): prioriza consistencia, incluso si las respuestas son menos «naturales»
Para aplicaciones creativas (brainstorming, contenido): permite más libertad pero implementa capas de post-procesamiento
Considera usar «high-thinking mode» o equivalentes para tareas que requieren precisión

3. Prepara un plan de contingencia para cambios de comportamiento

Los proveedores de IA pueden ajustar prompts del sistema sin aviso (como hizo OpenAI con las instrucciones duplicadas)
Mantén capacidad de cambiar rápidamente entre modelos (OpenAI, Anthropic, Google) si uno muestra comportamientos problemáticos
Implementa tests automatizados que validen salidas antes de desplegar actualizaciones de modelos en producción

4. No subestimes el poder del monitoreo comunitario

Los usuarios en X detectaron este problema antes que los equipos internos de QA de OpenAI
Crea canales para que tus usuarios reporten comportamientos inesperados de tu producto basado en IA
Participa en comunidades técnicas donde se discuten estos problemas (X, Hacker News, foros especializados)

Conclusión

Los «goblin outputs» de GPT-5.5 son más que un meme: son un caso de estudio sobre los desafíos de desplegar IA en producción. OpenAI necesitó cuatro instrucciones duplicadas en su código para contener un comportamiento que surgió naturalmente del modelo, ilustrando la complejidad de balancear personalidad y consistencia.

Para founders hispanohablantes construyendo con IA, la lección es clara: monitorea, testa y prepara contingencias. Los modelos evolucionan constantemente, y lo que funciona hoy puede cambiar mañana. La diferencia entre una startup que escala con IA y una que tropieza está en la infraestructura de monitoreo y la capacidad de adaptación rápida.