ZAYA1-8B: 760M params activos igualan a DeepSeek-R1
¿Qué es ZAYA1-8B y por qué importa?Zyphra acaba de lanzar ZAYA1-8B, un modelo MoE (Mixture of Experts) con 8.3 mil millones de parámetros totales pero solo 760 millones activos durante inferencia. Lo disruptivo: logra 92.4% en GSM8K (matemáticas), empatando a DeepSeek-R1 —un modelo de 32B parámetros— mientras cuesta 3 veces menos en inferencia.Para founders construyendo …









