QKV simplificado: 50% menos memoria con solo 3% de pérdida
El hallazgo: tres proyecciones redundantesUn equipo de investigadores ha demostrado que reducir las proyecciones QKV en Transformers puede recortar hasta un 50% la memoria necesaria para inferencia, con una penalización de apenas 3.1% en perplejidad del modelo. Para founders que despliegan LLMs en producción, esto significa ejecutar modelos más grandes en menos hardware, o habilitar …









