IA inventó una enfermedad falsa y la trató como real

Cuando la IA inventa enfermedades: el experimento que expuso a los grandes modelos de lenguaje

Un equipo de investigadores publicó preprints científicos completamente falsos describiendo una enfermedad ocular inexistente llamada bixonimania, supuestamente causada por la exposición a la luz azul. El objetivo era claro y provocador: demostrar hasta qué punto los modelos de lenguaje grandes (LLMs) son capaces de replicar y propagar información médica falsa como si fuera legítima. Los resultados, reportados por Nature, deberían preocupar a cualquier persona que utiliza IA para tomar decisiones —y especialmente a quienes la integran en sus productos o startups de salud.

El experimento: una enfermedad inventada con preprints fabricados

Los científicos construyeron un escenario de desinformación sofisticado pero detectablemente falso: publicaron papers con datos inventados, referencias inexistentes y señales visibles de falsedad. A pesar de esto, varios sistemas de inteligencia artificial —incluyendo herramientas desarrolladas por OpenAI, Google y Microsoft— citaron la bixonimania como una condición médica real en sus respuestas. Incluso algunos investigadores humanos la citaron como verídica, lo que evidencia que el problema no es solo técnico, sino también humano y sistémico.

La mecánica del fallo es reveladora: los LLMs no verifican la veracidad de la información que procesan; priorizan la coherencia y el estilo del texto por encima de su exactitud factual. Si algo está redactado con terminología médica creíble y aparece en una fuente que parece académica, el modelo tiende a reproducirlo como verdadero.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Los números detrás del riesgo: estudio del Lancet Digital Health

Un estudio publicado en The Lancet Digital Health refuerza estos hallazgos con datos concretos. Al someter a los LLMs a más de 1 millón de prompts con afirmaciones médicas falsas presentadas en formatos realistas (historiales clínicos, posts de Reddit, artículos de divulgación), los modelos aceptaron información incorrecta aproximadamente el 32% de las veces. Los modelos más pequeños fallaron en más del 60% de los casos, mientras que los más robustos —como ChatGPT-4o— lo hicieron en torno al 10%.

Entre los mitos médicos aceptados como válidos por los sistemas de IA figuraban afirmaciones tan peligrosas como «el paracetamol causa autismo durante el embarazo» o «la mamografía causa cáncer de mama». La conclusión de los investigadores es contundente: «Para estos modelos, lo que importa no es si una afirmación es correcta, sino cómo está escrita.»

Implicaciones para founders que construyen productos con IA

Si estás desarrollando una startup que integra inteligencia artificial en verticales de salud, bienestar, educación médica o asesoramiento profesional, este experimento no es solo una anécdota académica: es una advertencia operativa. Los riesgos concretos incluyen:

Responsabilidad legal y reputacional: si tu producto usa un LLM que propaga información médica incorrecta, las consecuencias pueden ser devastadoras para usuarios y para la empresa.
Erosión de confianza: los usuarios que descubren que tu IA les dio información falsa difícilmente vuelven. En salud, ese daño es irreversible.
Contaminación de bibliografía: si tu producto genera contenido que otros citan, puedes convertirte en un nodo propagador de desinformación científica sin saberlo.

Lo que dicen (y no dicen) OpenAI, Google y Microsoft

Aunque el artículo de Nature menciona directamente a OpenAI, Google y Microsoft como empresas cuyos sistemas citaron la enfermedad inventada, ninguna de las tres ha emitido declaraciones públicas específicas sobre los hallazgos de este experimento hasta la fecha. Esta ausencia de respuesta también dice mucho: la industria aún no tiene un protocolo estandarizado para abordar la diseminación de desinformación médica generada o amplificada por IA.

Medidas posibles: lo que la evidencia sugiere

A partir de los estudios disponibles, los investigadores apuntan a varias líneas de acción para reducir el riesgo de que los LLMs propaguen información médica falsa:

Entrenamiento con rechazo activo de afirmaciones no verificables: los modelos deben aprender a no reproducir datos que no puedan contrastar contra fuentes confiables.
Capas de validación externas: integrar verificadores de hechos médicos o bases de datos clínicas oficiales como filtro previo a la respuesta.
Transparencia en la citación: los LLMs deberían indicar explícitamente cuándo no pueden verificar una fuente o cuando una afirmación proviene de material no peer-reviewed.
Auditorías periódicas con contenido fabricado: el mismo método del experimento de la bixonimania puede usarse como test de robustez para evaluar modelos antes de desplegarlos en verticales sensibles.

El problema más profundo: la confianza en la IA como fuente de verdad

Lo que hace especialmente inquietante este experimento es que no expone solo un fallo técnico, sino un fallo de epistemología colectiva. Cuando investigadores humanos citan una enfermedad inventada porque la vieron en un preprint o porque un LLM la mencionó con aparente seguridad, el problema trasciende a la tecnología: revela cuánto hemos delegado el juicio crítico a sistemas que no tienen capacidad real de discernimiento.

Para el ecosistema startup, esto es un recordatorio de que la IA es una herramienta poderosa, pero no un árbitro de la verdad. Quienes construimos sobre ella tenemos la responsabilidad de diseñar con esa limitación en mente, no asumirla resuelta.

Conclusión

El experimento de la bixonimania es uno de los estudios más ilustrativos de los últimos años sobre los riesgos reales de los modelos de lenguaje cuando se usan sin guardrails en contextos sensibles. No se trata de demonizar la IA, sino de construir con ella de forma responsable. Si tu startup toca salud, ciencia o cualquier área donde la precisión es crítica, este hallazgo debería estar en tu radar estratégico —y en tu backlog de producto.

Descubre cómo otros founders implementan IA de forma responsable y segura en sus productos.

Aprender con founders