Seguridad en IA: extracción de datos de modelos de lenguaje

Contexto: ¿Pueden los modelos de lenguaje memorizar y reproducir libros?

El artículo Extracting books from production language models (arXiv:2601.02671) revela que varios modelos de lenguaje en producción —Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro y Grok 3— son susceptibles a ser inducidos para reproducir textos extensos y casi completos de libros protegidos por derechos de autor. Esto se logró a través de un procedimiento de “jailbreak” por fases, utilizando combinaciones de prompts y Best-of-N para evadir filtros y salvaguardas.

Método y hallazgos clave

Los investigadores emplearon un método en dos fases: primero probaban la posibilidad de extracción usando el inicio real de un libro como prompt, y según el resultado, iteraban la generación solicitando continuaciones. La métrica de éxito, near-verbatim recall (nv-recall), cuantificaba cuántas palabras del libro original se recuperaban casi literalmente.

En casos emblemáticos, Claude 3.7 Sonnet logró hasta 95.8% de nv-recall en “Harry Potter y la piedra filosofal”.
Gemini 2.5 Pro y Grok 3 permitieron altos niveles de recuperación incluso sin jailbreak explícito (76.8% y 70.3% de nv-recall, respectivamente).
Se pudieron extraer bloques contiguos de miles de palabras de libros protegidos.

Implicancias para la protección de datos y derechos de autor

Estos resultados subrayan que incluso modelos con salvaguardas productivas pueden memorizar y permitir la recuperación de grandes cantidades de datos sensibles o protegidos. Para startups tecnológicas que utilizan o entrenan modelos de IA, esto plantea desafíos regulatorios y éticos significativos en torno a la protección de datos, medidas de seguridad y cumplimiento de la propiedad intelectual.

La variabilidad en la respuesta de los modelos frente a los prompts también muestra que las salvaguardas implementadas no son totalmente determinísticas ni infalibles, dependerán de la estrategia, el momento y el tipo de consulta.

Recomendaciones para el ecosistema startup

Valida qué datos utiliza y memoriza cualquier modelo de IA integrado en tus procesos o producto para evitar exposiciones no deseadas.
Implementa métricas y tests similares a nv-recall para auditar posibles fugas en modelos bajo producción.
Mantente al tanto de la evolución regulatoria en materia de derechos de autor y privacidad aplicada a IA.
Considera la colaboración con expertos legales y de IA para políticas de compliance y formaciones internas.

Conclusión

El trabajo evidencia que la memorabilidad de los modelos lingüísticos sigue siendo un reto para la seguridad de datos y derechos de autor, incluso en sistemas con fuertes salvaguardas. Fundadores y equipos tech deben priorizar auditorías y mejores prácticas de seguridad en IA. Participar en foros y comunidades especializadas será fundamental para compartir estrategias y mantenerse al día con riesgos y soluciones emergentes.

Descubre cómo otros founders implementan estas soluciones y gestionan la seguridad de IA en sus startups. Únete gratis a la comunidad de Ecosistema Startup.

Únete gratis