Apple demandada por scraping ilegal de vídeos de YouTube

El caso que sacude la industria de la IA: YouTubers vs. Apple

Tres canales de YouTube con más de 6,2 millones de suscriptores combinados presentaron una demanda federal contra Apple ante el Distrito Norte de California, acusando a la compañía de haber violado la Ley de Derechos de Autor del Milenio Digital (DMCA) al usar ilegalmente millones de vídeos con copyright para entrenar sus modelos de inteligencia artificial.

Los demandantes son h3h3Productions (canal del reconocido podcast conducido por Ethan y Hila Klein), MrShortGame Golf (del creador Grant Horvat) y Golfholics (del instructor Danny Maude). Tres creadores muy distintos entre sí, unidos por un mismo agravio: sus contenidos fueron utilizados sin permiso para alimentar una IA comercial.

¿Qué es el dataset en el centro de la polémica?

La demanda gira en torno al uso de grandes conjuntos de datos de vídeos de YouTube extraídos mediante scraping automatizado. Aunque en algunos reportes iniciales se menciona el dataset «YouTube Subtitles» de la organización EleutherAI —que habría recopilado subtítulos de más de 173.536 vídeos sin consentimiento de sus autores—, los documentos judiciales también apuntan a Panda-70M, un dataset masivo de 70 millones de vídeos raspados de YouTube que Apple habría usado para entrenar su modelo de generación de vídeo Apple AI Video.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

Lo revelador del caso es que la propia Apple dejó un rastro documental: sus investigadores publicaron un artículo académico revisado por pares en el que confirmaban el uso de Panda-70M, sin mencionar que ese dataset había sido construido a través de scrapers que eludían deliberadamente las protecciones anti-scraping de YouTube.

¿Cómo aplica la DMCA a este caso?

La DMCA (Digital Millennium Copyright Act, 1998) es la ley estadounidense que, entre otras cosas, prohíbe la elusión de medidas tecnológicas de protección de derechos de autor. Los sistemas anti-scraping de YouTube son precisamente ese tipo de medidas.

Los demandantes argumentan que Apple —o los terceros que construyeron los datasets que Apple utilizó— emplearon programas automatizados para bypassar esas barreras, accediendo ilegalmente al contenido y luego usándolo con fines comerciales. La clave legal aquí es que usar datos obtenidos ilegalmente no exime de responsabilidad al beneficiario final, aunque no haya realizado el scraping directamente.

Esta interpretación, de prosperar, tendría consecuencias enormes para toda la industria de la IA.

La defensa de Apple y el argumento del «tercero»

La postura inicial de Apple se basa en el argumento de distancia: la empresa alega no haber realizado el scraping de forma directa, sino haber utilizado datasets ya existentes construidos por terceros. Sin embargo, los demandantes y sus abogados contraargumentan que este razonamiento no elimina la infracción, especialmente cuando la empresa conocía —o debía conocer— el origen ilícito del material.

Al momento de publicación de este artículo, Apple no ha emitido una respuesta formal ante los tribunales. Los próximos pasos previsibles incluyen la contestación oficial de la demanda, audiencias preliminares y una fase de descubrimiento de evidencia que podría obligar a Apple a revelar detalles internos sobre sus procesos de entrenamiento de IA.

Un patrón que se repite: más demandas en el horizonte

Este caso no es aislado. La demanda contra Apple se suma a un creciente número de acciones legales contra las principales empresas de IA. Compañías como Nvidia, Meta y otras ya enfrentan litigios similares por el uso no autorizado de contenido protegido para entrenar modelos de lenguaje y generación de imágenes o vídeo.

Como señaló Xataka, la IA se ha construido en gran parte «saqueando» el contenido de Internet: libros, artículos, imágenes, vídeos y código. Ahora, los creadores de ese contenido quieren que se les pague por ello —o al menos que se les pida permiso.

¿Qué significa esto para founders y startups que usan datasets públicos?

Este caso es una señal de alerta directa para cualquier startup o equipo de IA que dependa de datasets de acceso aparentemente libre. Las implicaciones son varias:

Riesgo legal por origen del dato: Usar un dataset que incluye material scrapeado sin consentimiento puede convertirte en codemandado, aunque no hayas construido el dataset tú mismo.
Auditoría de datasets es ahora una práctica de compliance: Antes de entrenar un modelo con datos de terceros, es crítico verificar su origen, licencias y métodos de recolección.
El fair use tiene límites cada vez más claros: El argumento de que el uso de datos para entrenamiento de IA es «transformativo» y por tanto amparado por fair use está siendo cada vez más cuestionado en tribunales.
Los modelos fundacionales de grandes empresas están en la mira: Pero las startups que los fine-tunean con datos propios también podrían verse afectadas si los modelos base están contaminados.
Nuevas oportunidades de negocio: Surgirán mercados de licenciamiento de datos, plataformas de consentimiento para creadores y servicios de auditoría de datasets. Los founders atentos ya están posicionándose aquí.

El debate más amplio: ética y sostenibilidad del ecosistema IA

Más allá de lo legal, este caso abre una pregunta existencial para la industria: ¿es sostenible un modelo de desarrollo de IA que se financia con el trabajo creativo de millones de personas sin compensación ni reconocimiento?

Los creadores de contenido —YouTubers, escritores, artistas, programadores— son el combustible sobre el que se construyen los modelos más avanzados del mundo. Si ese combustible se agota porque los incentivos para crear desaparecen, o si los tribunales cierran el acceso a esos datos, el ecosistema de IA tendrá que reinventarse.

Para los founders de startups de IA en LATAM y el mundo hispano, este momento es también una oportunidad: construir desde el principio con datos licenciados, sintéticos o propios es una ventaja competitiva real en un entorno regulatorio que se endurece.

Conclusión

La demanda de h3h3Productions, MrShortGame Golf y Golfholics contra Apple no es solo un pleito entre creadores y una Big Tech. Es el síntoma más visible de una tensión estructural que definirá el futuro de la industria de la inteligencia artificial: ¿quién paga el costo de entrenar los modelos que están transformando el mundo?

Para los founders del ecosistema startup, el mensaje es claro: la procedencia de tus datos es tan importante como la calidad de tu modelo. El compliance en IA deja de ser un tema de grandes corporaciones y se convierte en una prioridad desde el día uno.

Descubre cómo otros founders navegan los retos legales y éticos de la IA junto a una comunidad de expertos.

Unirse a la comunidad