Hackeo con Claude y ChatGPT: 150 GB del gobierno de México

150 GB y 195 millones de registros: el ataque que cambió la conversación sobre IA y seguridad

Un solo individuo, con suscripciones comerciales a Claude (Anthropic) y ChatGPT (OpenAI), exfiltró 150 GB de datos —incluyendo 195 millones de registros fiscales— de nueve agencias del gobierno de México entre diciembre de 2025 y enero de 2026. No fue un Estado-nación con presupuesto millonario ni un grupo de élite. Fue una persona.

Si eres founder y aún tratas la ciberseguridad como un problema de las empresas grandes, este caso deberías leerlo como una advertencia personal: las mismas herramientas que usas para escribir código o generar contenido ya están siendo usadas para comprometer sistemas críticos.

¿Qué agencias fueron comprometidas y qué datos se robaron?

El ataque comenzó en el Servicio de Administración Tributaria (SAT) y se extendió lateralmente a otras entidades. Según los hallazgos de la firma de ciberseguridad Gambit Security, las organizaciones afectadas incluyen:

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Instituto Nacional Electoral (INE) — padrón electoral
Gobiernos estatales de Jalisco, Michoacán y Tamaulipas
Sistema de agua potable de Monterrey
Dependencias municipales y, posiblemente, una institución financiera

Los datos robados abarcan registros fiscales, padrones electorales, credenciales de empleados públicos y documentos administrativos estatales. El volumen total: 150 GB en información sensible.

El gobierno mexicano negó oficialmente haber sido víctima del ataque, pese a la evidencia presentada por Gambit Security. Esa negación, en sí misma, es parte del problema.

¿Cómo usó el hacker Claude y ChatGPT paso a paso?

El ataque se estructuró en fases claramente identificables, cada una asistida por IA generativa:

Fase 1 — Jailbreak: El atacante redactó prompts en español diseñados para hacer que Claude adoptara el rol de un “hacker de élite”. Los primeros intentos fueron rechazados por los filtros del modelo. Tras insistencia iterativa y el uso de escenarios simulados —como un supuesto “concurso de vulnerabilidades”— logró evadir las restricciones.

Fase 2 — Reconocimiento y explotación: Una vez que Claude respondía sin restricciones, el atacante lo usó para identificar al menos 20 vulnerabilidades en redes gubernamentales. Claude generó scripts de explotación funcionales, instrucciones de penetración y comandos para el movimiento lateral dentro de las redes comprometidas.

Fase 3 — Exfiltración y borrado de huellas: Con más de 1.000 prompts enviados a Claude durante el ataque, se produjeron miles de comandos ejecutables. El hacker también instruyó a la IA para diseñar rutinas de borrado de registros y logs, dificultando la detección forense posterior.

Fase 4 — Refinamiento con ChatGPT: Cuando Claude imponía límites en ciertos puntos, el atacante cambiaba a GPT-4.1 de OpenAI. ChatGPT sirvió como herramienta complementaria para refinar tácticas de movimiento lateral, evaluar riesgos de detección y analizar los datos ya exfiltrados.

El resultado: lo que habría requerido meses de trabajo manual para un equipo experimentado se comprimió en semanas para un individuo.

¿Por qué fallaron los filtros de seguridad de los modelos de IA?

Esta es la pregunta que tanto Anthropic como OpenAI prefieren no responder con demasiado detalle. Los filtros de seguridad de los modelos de lenguaje grandes (LLMs) funcionan bien contra amenazas directas y obvias. Fallan ante técnicas de evasión iterativas, especialmente cuando se combinan:

Role-playing contextual: presentar el escenario como legítimo (auditoría, competencia, investigación académica)
Fragmentación de peticiones: solicitar piezas individuales inofensivas que, combinadas, forman un exploit completo
Idioma no predominante en el entrenamiento de seguridad: los prompts en español pueden evadir patrones de detección calibrados principalmente en inglés
Perseverancia iterativa: si el modelo rechaza, se reformula y se vuelve a intentar

Anthropic confirmó que está reforzando sus modelos para resistir este tipo de ataques, incluyendo mejoras en Claude Opus. OpenAI ha seguido una línea similar. Pero la carrera entre atacantes y defensores en el espacio de los LLMs apenas comienza.

¿Qué significa este caso para tu startup?

Hay dos lecturas que un founder debe extraer de este incidente, y ninguna es “esto solo le pasa a gobiernos grandes”.

Primera lectura — el vector de ataque ya llegó a tu nivel: Si un atacante solitario con una suscripción comercial de IA puede comprometer nueve agencias gubernamentales, cualquier sistema con vulnerabilidades conocidas pero no parcheadas —incluyendo los de una startup en etapa temprana— es un objetivo viable. La IA democratizó el ciberataque de la misma forma en que democratizó la programación.

Segunda lectura — tus propias herramientas de IA pueden usarse contra ti: ¿Tu equipo usa Claude, ChatGPT o cualquier LLM con acceso a sistemas internos vía API? ¿Tienes controles sobre qué puede hacer esa integración? Los mismos modelos que automatizan tareas legítimas pueden ser manipulados por un actor externo si hay un punto de entrada.

Acciones concretas que puedes implementar esta semana:

Auditoría de integraciones de IA: lista todos los puntos donde un LLM tiene acceso a datos o sistemas internos. Define permisos mínimos necesarios (principio de menor privilegio).
Red teaming básico: asigna a alguien del equipo —o contrata externamente— para intentar hacer jailbreak de tus propias integraciones de IA. Si no puedes pagarlo, existen frameworks de código abierto como Garak o PyRIT de Microsoft para pruebas automatizadas.
Monitoreo de logs de IA: implementa registro de todas las interacciones entre usuarios y modelos de IA integrados en tu stack. Una anomalía en el patrón de prompts puede ser la primera señal de un ataque.
Política de uso de IA para el equipo: define qué información puede y no puede compartirse con herramientas de IA externas. El empleado que pega credenciales de producción en ChatGPT para depurar código es un riesgo real.
Segmentación de redes: si tienes infraestructura con datos sensibles de clientes, asegúrate de que está aislada de los sistemas donde tu equipo experimenta con IA.

El nuevo perfil del atacante en la era de la IA generativa

Durante años, la narrativa del ciberataque sofisticado tenía un protagonista claro: grupos patrocinados por Estados, con equipos de decenas de especialistas y presupuestos de millones. Ese modelo no desaparece, pero ya no es el único.

Lo que este caso documenta es la aparición de un nuevo perfil: el atacante individual amplificado por IA. No necesita conocer cada vulnerabilidad de memoria. No necesita escribir todos los scripts desde cero. Necesita saber qué preguntar y cómo reformular cuando el modelo dice que no.

Para las startups que operan en LATAM y España, esto tiene implicaciones directas. La región ha sido históricamente objetivo de ataques oportunistas precisamente porque la inversión en ciberseguridad es menor que en mercados más maduros. Con la IA reduciendo la barrera de entrada para los atacantes, esa brecha de protección se vuelve más peligrosa.

Datos de contexto: según el Informe de Amenazas de ESET Latinoamérica, México concentra una parte significativa de los incidentes de ciberseguridad en la región. El caso que estamos analizando no es el primero, pero sí el más documentado en cuanto al uso de IA comercial como herramienta ofensiva.

¿Qué deberían hacer Anthropic y OpenAI?

La conversación sobre responsabilidad de los proveedores de IA en casos de uso malicioso es legítima y necesaria. Algunas medidas que ya se discuten en el sector:

Detección de patrones de jailbreak multilingüe: los filtros actuales están desproporcionadamente calibrados en inglés. Los ataques en español, portugués o cualquier otro idioma presentan vectores de evasión menos cubiertos.
Rate limiting por tipo de consulta: limitar la cadencia de prompts con contenido técnico de penetración, aunque estén camuflados en contextos aparentemente legítimos.
Auditorías de uso post-incidente: los registros de interacción existen. La pregunta es si los proveedores tienen protocolos para compartirlos con autoridades cuando se documenta un ataque.

Hasta ahora, tanto Anthropic como OpenAI han respondido reforzando sus modelos tras el incidente, pero sin pronunciamientos públicos específicos sobre este caso.