Britannica y Merriam-Webster demandan a OpenAI por copyright

El choque que el ecosistema tech esperaba: dos gigantes editoriales versus OpenAI

El 13 de marzo de 2026, Encyclopaedia Britannica y su subsidiaria Merriam-Webster presentaron una demanda federal contra OpenAI en Nueva York (caso 1:26-cv-02097), acusando a la empresa de Sam Altman de infracción masiva de derechos de autor. La cifra que ancla el caso es contundente: casi 100.000 artículos protegidos habrían sido utilizados sin autorización para entrenar los modelos de lenguaje que impulsan ChatGPT. No es solo una disputa legal más; es una señal de que el debate sobre copyright e IA generativa ha llegado a un punto de inflexión que todo founder tech debe entender.

Qué alegan Britannica y Merriam-Webster

La demanda articula tres frentes de ataque legales que vale la pena desmenuzar:

1. Infracción directa de copyright en el entrenamiento

Las editoriales afirman que OpenAI realizó scraping sistemático de sus plataformas digitales para incorporar contenido protegido en los datasets de entrenamiento de sus LLMs. Según el texto de la demanda, esto no se limitó a fragmentos o resúmenes, sino que incluyó reproducciones literales, completas o parciales, de artículos de enciclopedia y definiciones de diccionario.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

El argumento jurídico central gira en torno a si este uso califica como fair use (uso justo), el escudo legal que OpenAI y otras empresas de IA han invocado repetidamente. Las demandantes sostienen que no: el uso no es transformativo en sentido sustancial, y el impacto económico en sus negocios —menor tráfico a sus sitios, caída en suscripciones— es directo y cuantificable.

2. El mecanismo RAG y la explotación en tiempo real

Un aspecto técnicamente relevante para cualquier builder de productos de IA es la acusación relacionada con Retrieval Augmented Generation (RAG). Las demandantes alegan que ChatGPT no solo usó sus artículos en el entrenamiento original, sino que el sistema RAG —que permite al modelo recuperar información actualizada de fuentes externas en tiempo real para responder preguntas— sigue explotando ese contenido de forma continua y activa, sin licencia ni compensación.

Esto expande el problema más allá del entrenamiento: implica que cada vez que un usuario obtiene una respuesta respaldada en información de Britannica o Merriam-Webster, existe una alegada infracción en curso. Para quienes construyen aplicaciones con RAG sobre datos de terceros, este frente legal es especialmente relevante.

3. Violación de la Lanham Act: el problema de las alucinaciones

El tercer flanco es el más novedoso desde el punto de vista legal. La demanda invoca la Lanham Act —la ley federal estadounidense de marcas y competencia desleal— argumentando que ChatGPT ha generado contenido falso atribuyéndolo erróneamente a Britannica o Merriam-Webster. En otras palabras: las famosas alucinaciones del modelo no son solo un problema de calidad, sino potencialmente un acto de falsa atribución que daña la reputación y confianza construida durante décadas por estas marcas.

Este argumento podría tener implicaciones sistémicas: si prospera, cualquier empresa de IA cuyo modelo cite o parafrasee fuentes de forma inexacta podría enfrentar reclamos bajo marcas y competencia desleal, no solo bajo copyright.

El impacto económico en el centro del debate

Más allá del lenguaje jurídico, la demanda articula un daño económico concreto. Britannica —que desde 2012 opera exclusivamente en formato digital— y Merriam-Webster basan su modelo de negocio en suscripciones y publicidad digital. Cuando ChatGPT responde directamente preguntas que antes llevaban al usuario a sus sitios, el tráfico orgánico cae y, con él, los ingresos por publicidad y las conversiones a suscripción.

Esta dinámica no es exclusiva de las enciclopedias: es el mismo mecanismo que afecta a medios de comunicación, blogs especializados, plataformas de e-commerce y cualquier negocio digital que dependa del SEO y el tráfico orgánico. Para founders que construyen sobre audiencias y contenido, es una amenaza estructural que merece atención estratégica.

Un conflicto judicial que ya es ecosistema

La demanda de Britannica y Merriam-Webster no surge en el vacío. Se suma a una ola creciente de litigios contra OpenAI y otras empresas de IA generativa:

The New York Times demandó a OpenAI y Microsoft a finales de 2023, en el caso que más atención mediática ha recibido.
Ziff Davis —propietaria de Mashable, CNET, PCMag y decenas de publicaciones digitales— presentó su propia demanda.
Una coalición de periódicos regionales estadounidenses y canadienses como Chicago Tribune, Denver Post y Toronto Star también litigan por daños similares.
Autores y escritores individuales han interpuesto acciones colectivas en paralelo.

El patrón es claro: la industria de contenidos está construyendo un frente legal amplio. Y aunque los casos avanzan lentamente por el sistema judicial estadounidense, la presión acumulada ya está empujando a OpenAI y a sus competidores a negociar acuerdos de licenciamiento con algunos actores —como hizo con Associated Press y Axel Springer— antes de llegar a juicio.

Las preguntas que todo founder tech debería hacerse hoy

Si estás construyendo un producto que utiliza IA generativa, ya sea con modelos de terceros o propios, estas disputas legales tienen implicaciones directas para tu hoja de ruta:

¿Qué datos usas para entrenar o hacer fine-tuning?

La procedencia de los datos de entrenamiento ya no es solo un tema técnico. Asegúrate de que tienes licencias claras o que el material es de dominio público. El riesgo legal de usar datos scrapeados sin permiso está escalando rápidamente.

¿Cómo implementas RAG en tu producto?

Si tu sistema recupera contenido de fuentes externas para enriquecer respuestas, revisa tus acuerdos con esas fuentes. El caso Britannica vs. OpenAI sugiere que el uso de RAG sobre contenido protegido puede ser tan problemático como el entrenamiento directo.

¿Cómo atribuyes fuentes en los outputs de tu modelo?

La acusación bajo la Lanham Act es una llamada de atención: los sistemas de IA que atribuyen información a fuentes específicas —correcta o incorrectamente— pueden estar creando riesgos de marca para esas fuentes y, potencialmente, responsabilidad para el desarrollador del sistema.

¿Hacia dónde va el marco legal de la IA?

La resolución de estos casos tomará años, pero el resultado moldeará la industria. Hay tres escenarios plausibles que los analistas discuten hoy:

Modelo de licencias obligatorias: los tribunales o el Congreso establecen un sistema por el cual las empresas de IA pagan una tarifa por el uso de contenido protegido, similar a como funcionan los royalties en la música.
Expansión del fair use para IA: los jueces determinan que el entrenamiento de modelos es suficientemente transformativo para quedar protegido, lo que daría mayor libertad operativa a las empresas de IA pero debilitaría a los creadores de contenido.
Acuerdos privados de mercado: la presión legal impulsa negociaciones caso a caso entre empresas de IA y titulares de contenido, creando un mercado fragmentado de licencias.

Para los founders de startups que operan en el espacio de IA, la claridad regulatoria —aunque tarde— eventualmente llegará. Mientras tanto, construir con fuentes licenciadas o de dominio público, documentar el origen de los datos de entrenamiento y monitorear la evolución de estos casos son prácticas de due diligence que hoy se convierten en ventaja competitiva.

Conclusión

La demanda de Encyclopaedia Britannica y Merriam-Webster contra OpenAI es mucho más que un conflicto entre dos gigantes del conocimiento y una empresa de Silicon Valley. Es el síntoma más reciente de una tensión estructural entre la economía del contenido digital y los modelos de negocio de la IA generativa. Para los founders del ecosistema tech, entender esta dinámica —el debate sobre fair use, el rol del RAG, las implicaciones de la Lanham Act y el tablero más amplio de litigios— es parte de construir empresas resilientes en un entorno legal que se está redefiniendo en tiempo real. Ignorar estas señales hoy puede traducirse en pasivos legales mañana.

Profundiza estos temas con nuestra comunidad de founders y expertos en IA, legal tech y estrategia startup.

Unirme a la comunidad