Aceleración 3x en LLMs sin speculative decoding | IA
Una revolución silenciosa en la velocidad de los LLMs Mientras la industria se obsesiona con lanzar modelos cada vez más grandes, un grupo de investigadores acaba de demostrar que la verdadera innovación está en hacer que los modelos existentes funcionen tres veces más rápido, sin necesidad de arquitecturas complejas ni hardware especializado. La técnica desarrollada …









