QKV simplificado: 50% menos memoria con solo 3% de pérdida

El hallazgo: tres proyecciones redundantes

Un equipo de investigadores ha demostrado que reducir las proyecciones QKV en Transformers puede recortar hasta un 50% la memoria necesaria para inferencia, con una penalización de apenas 3.1% en perplejidad del modelo. Para founders que despliegan LLMs en producción, esto significa ejecutar modelos más grandes en menos hardware, o habilitar casos de uso en dispositivos edge que antes eran inviables.

El estudio, publicado en arXiv bajo el título “Do Transformers Need Three Projections? Systematic Study of QKV Variants”, analiza tres variantes de comparticipación de pesos en las proyecciones Query (Q), Key (K) y Value (V): Q=K−V, Q−K=V y Q=K=V. La conclusión principal: las matrices K y V entrenadas presentan una similitud coseno de 0.73 entre capas y rangos efectivos casi idénticos (687 vs. 702 de 1024 dimensiones), lo que sugiere una redundancia significativa que puede eliminarse sin consecuencias graves.

¿Q−K=V: el punto dulce entre eficiencia y calidad?

Entre las tres variantes evaluadas, Q−K=V (key y value comparten proyección, query se mantiene separada) es la que mejor equilibra ahorro de memoria y calidad del modelo. Los autores reportan una reducción del 50% en el tamaño de KV cache con solo un 3.1% de degradación en perplejidad para modelos de lenguaje de hasta 1.2B parámetros entrenados con 10B tokens.

🤖 La IA no es solo para leer sobre ella

En la comunidad la aplicamos: automatización, agentes IA y herramientas reales para emprender, no solo para informarte.

👥 Aplicarla en la comunidad

La razón técnica: mantener la asimetría entre query y el par key-value preserva la direccionalidad que la atención necesita para funcionar correctamente. La variante Q=K−V, en cambio, resultó menos atractiva porque no ofrece beneficios claros en inferencia y puede dañar esa asimetría esencial.

El estudio también encontró que la complejidad de proyección se reduce de 3nd² a 2nd², un 33% menos de cómputo en la parte de proyecciones de la atención. Aunque el cálculo del score de atención (O(n²d)) no cambia, la optimización es más relevante en escenarios donde las proyecciones y el ancho de banda de memoria son el cuello de botella.

¿Cómo se compara con MQA, GQA y MLA?

El enfoque de comparticipación de proyecciones es complementario a técnicas existentes como Multi-Query Attention (MQA), Grouped-Query Attention (GQA) y Multi-head Latent Attention (MLA). El paper muestra resultados combinados prometedores:

Q−K=V + GQA-4: 87.5% de reducción total de KV cache
Q−K=V + MQA: hasta 96.9% de reducción total de KV cache

Mientras que MQA y GQA atacan la redundancia a nivel de cabezas de atención, este trabajo opera a nivel de proyecciones. La ventaja es que se puede apilar con esas técnicas, no reemplazarlas. MLA, por su parte, comprime el estado de atención en representaciones latentes, un enfoque más complejo que no compite directamente con la simplicidad de compartir pesos.

Para una startup que ya usa GQA (como Llama 3 o Mistral), añadir Q−K=V podría significar pasar de un 75% de ahorro a más de un 87%, sin cambios arquitectónicos radicales.

¿Qué significa esto para tu startup?

Si estás construyendo productos sobre LLMs, el costo de inferencia es probablemente tu mayor gasto operativo. La KV cache es uno de los componentes que más memoria consume durante la generación de texto, especialmente en contextos largos. Reducirla a la mitad sin tocar la arquitectura principal de tu modelo tiene implicaciones directas:

Más usuarios por servidor: con la misma memoria, puedes servir el doble de solicitudes concurrentes.
Contextos más largos: la misma memoria te permite procesar secuencias de hasta el doble de longitud.
Dispositivos edge: modelos que antes no cabían en 8 GB de RAM ahora pueden ejecutarse en laptops o incluso en hardware especializado como NPUs.

El paper entrena modelos desde cero con estas restricciones, pero el hallazgo sobre la redundancia K-V sugiere que fine-tuning con proyecciones compartidas podría ser viable como post-hoc, aunque los autores no lo exploran explícitamente.

Cómo empezar a implementar esta optimización

El código del estudio está disponible públicamente, lo que facilita la experimentación. Estas son tres acciones concretas que puedes tomar como founder o líder técnico:

Evalúa la redundancia en tus modelos actuales. Calcula la similitud coseno entre las matrices K y V de tus capas de atención. Si es alta (0.7 o superior), la comparticipación de pesos es una opción viable. Puedes hacerlo con tu pipeline de evaluación existente sin necesidad de reentrenar.
Prueba Q−K=V en fine-tuning en lugar de training from scratch. Aunque el paper entrena desde cero, el principio de redundancia se mantiene. Inicia un experimento con un modelo de 300M parámetros y 10B tokens para validar el impacto en tu dominio específico antes de escalar.
Combínalo con GQA si ya lo usas. Si tu stack actual emplea GQA (como los modelos de la familia Llama), añadir Q−K=V puede darte una ventaja adicional del 12-15% en ahorro de memoria. El paper muestra que la combinación es efectiva y no introduce conflictos arquitectónicos.

El repositorio con el código de implementación está disponible en el enlace del paper, listo para clonar y ejecutar experimentos.

El futuro de la eficiencia en atención

Este trabajo se suma a una tendencia creciente: cuestionar los supuestos arquitectónicos heredados de los primeros Transformers. Investigaciones recientes como “Beyond QKV” y “Beyond Linearity in Attention Projections” señalan en direcciones similares. La conclusión para el ecosistema startup es clara: el margen de optimización en inferencia de LLMs sigue siendo amplio, y técnicas relativamente simples como compartir proyecciones pueden tener un impacto desproporcionado en costos y viabilidad técnica.

Para equipos pequeños con recursos computacionales limitados, este tipo de hallazgos representa una oportunidad de competir con players más grandes sin necesidad de infraestructura masiva. La eficiencia no es solo un tema técnico: es una ventaja competitiva.