Qwen3.5-27B: 207 tok/s en RTX 3090 con Lucebox

¿Cómo lograron 207 tok/s con Qwen3.5-27B en una RTX 3090?

Qwen3.5-27B es un modelo denso multimodal de 27.000 millones de parámetros desarrollado por Alibaba que combina capacidades de razonamiento, programación y visión. Hasta abril de 2026, los benchmarks públicos más altos reportados para este modelo en una NVIDIA RTX 3090 (24 GB de VRAM) rondaban los 92,9 tok/s con cuantización Q4_K_M, según mediciones con llama.cpp. El logro de Luce-Org de alcanzar 207 tok/s representa un salto de más del 120% sobre el rendimiento publicado convencionalmente.

La diferencia no está en el hardware — que sigue siendo una GPU de consumo del segmento 2020 — sino en una filosofía de optimización radical: adaptar el software al hardware específico en lugar de usar configuraciones genéricas. Este enfoque, desarrollado de forma abierta en el repositorio lucebox-hub de GitHub, replica lo que MLC LLM y vLLM han demostrado: que la compilación específica del modelo elimina cuellos de botella que las implementaciones estándar ignoran.

¿Qué técnicas de optimización hacen posible este rendimiento?

Para que un founder entienda qué está pasando bajo el capó, hay tres capas de optimización que explican el salto de rendimiento:

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

1. Cuantización estratégica (Q4_K_M vs. Q8)
Usar cuantización Q4_K_M reduce la VRAM necesaria de ~27 GB (modelo completo FP16) a aproximadamente 16,7 GB, dejando margen suficiente en los 24 GB de la RTX 3090 para el contexto y el sistema. Los benchmarks muestran que Qwen3.5-27B en cuantización Q8 alcanza solo 7,5 tok/s — un cuello de botella severo. La clave no es comprimir más, sino comprimir inteligentemente.

2. Atención lineal en Qwen3.5
A diferencia de la atención cuadrática de transformers tradicionales, Qwen3.5 incorpora un mecanismo de atención lineal que reduce la complejidad computacional de O(n²) a O(n). Esto significa que a mayor longitud de contexto, la penalización de velocidad es mucho menor. En setups de producción donde tu startup procesa documentos largos o sesiones de conversación extensas, esto se traduce en respuestas consistentes sin degradación.

3. Adaptación de kernels CUDA al hardware específico
Aquí está el verdadero diferencial de Lucebox. La mayoría de las implementaciones usan kernels CUDA genéricos de vLLM o Hugging Face. Compilar kernels optimizados para la arquitectura GA102 de la RTX 3090 — con sus 10.496 CUDA cores y 84 RT cores — elimina overhead innecesario. Es la diferencia entre conducir un deportivo en automático con limitador de velocidad y ajustar la ECU al circuito donde vas a correr.

¿Cómo se compara este rendimiento con otras implementaciones?

Para poner los 207 tok/s en perspectiva aquí tienes cómo rinde Qwen3.5-27B en distintos setups públicos reportados en abril de 2026:

RTX 3090 (llama.cpp estándar, Q4_K_M): ~35-40 tok/s con contexto largo — según benchmarks en Consultor365
RTX 3090 (Qwen3.5-35B-A3B MoE, Q4_K_M): ~92,9 tok/s — el modelo MoE activa solo 3B de parámetros por token, lo que explica la velocidad
RTX 3090 (Lucebox optimizado, Qwen3.5-27B): 207 tok/s — más del doble que el MoE comparado
RTX 5090 (llama.cpp estándar, Qwen3.5-35B-A3B): ~162,2 tok/s — la RTX 3090 optimizada supera a la 5090 sin optimizar

Este último punto es crucial: una GPU de 2020 optimizada supera a una GPU flagship de 2025 en configuración estándar. Para cualquier founder que esté evaluando infraestructura de IA, esto demuestra que la optimización de software puede ser más rentable que la actualización de hardware.

¿Qué significa esto para tu startup?

Si tu startup depende de inferencia de LLM — ya sea para procesar documentos, servir chatbots, o ejecutar agents autónomos — estos son los insights accionables:

Acción 1: Antes de comprar más GPUs, audita tu stack de inferencia

La diferencia entre 35 tok/s y 207 tok/s en el mismo hardware es un factor de 6x. Antes de escalar a A100s en cloud (que cuestan ~$3-4/hora por GPU), prueba estos pasos en tu infraestructura actual:

Cambia de implementaciones genéricas (Hugging Face pipeline básico) a llama.cpp con Flash Attention o vLLM con PagedAttention
Implementa cuantización Q4_K_M — no Q8, que sacrifica rendimiento sin ganancias proporcionales en calidad para la mayoría de casos de uso startup
Si usas modelos Qwen3.5, aprovecha la atención lineal configurando contextos largos — no penalizan velocidad como en modelos anteriores

Acción 2: Considera modelos MoE para producción a escala

El modelo Qwen3.5-35B-A3B tiene 35B de parámetros totales pero solo activa 3B por token gracias a su arquitectura Mixture of Experts. Esto significa:

Calidad cercana a un modelo denso de 35B
Velocidad de inferencia comparable a un modelo de 3B
Posibilidad de servir múltiples requests concurrentes en una sola RTX 3090

Para una startup hispanohablante que necesita servir inferencia con latency bajo 500ms, los MoE son la mejor relación coste-rendimiento disponible en abril de 2026.

Acción 3: Reproduce y valida antes de comprometer arquitectura

El repositorio lucebox-hub de Luce-Org es open source. Si tu equipo técnico tiene experiencia con CUDA o ML compilation:

Clona el repositorio y ejecuta los benchmarks con tu caso de uso real — no con sintético
Mide tokens de primer segundo (time-to-first-token) además de throughput sostenido — lo que tu usuario percibe es la latencia inicial
Compara con MLC LLM Engine, el motor universal de despliegue de MLC.AI que compila modelos para múltiples backends

¿Cuál es el impacto en el ecosistema de IA local?

Lo que demuestra Lucebox trasciende un benchmark específico. El coste de ejecutar IA de nivel producción en hardware de consumo sigue cayendo cada trimestre. Para founders en LATAM y España, donde el acceso a infraestructura cloud de alto rendimiento es significativamente más caro que en Estados Unidos (y la latencia hacia servidores USA puede añadir 80-150ms), la capacidad de correr modelos competitivos en hardware local no es un hobby técnico — es una ventaja estratégica.

Empresas como Luce IT en España ya están desplegando asistentes inteligentes basados en LLMs locales para clientes enterprise, reduciendo costes operativos un 60-70% versus APIs cloud. Y el proyecto llm-d de Red Hat, lanzado en 2025, está estandarizando la inferencia distribuida de GenAI open source, lo que democratiza aún más el acceso.

La pregunta ya no es "¿puedo correr IA local?" sino "¿qué modelo, optimizado de qué forma, me da el ROI correcto para mi caso de uso específico?" Y esa es una decisión que un buen equipo técnico — con data real de benchmarks como este — puede responder con precisión.

Conclusión

207 tok/s con Qwen3.5-27B en una RTX 3090 no es solo un número impresionante — es evidencia de que la optimización de software sigue siendo el multiplicador de rendimiento más subestimado en IA. Para founders que toman decisiones de infraestructura, el mensaje es claro: antes de escalar verticalmente en cloud, explora hasta dónde llega tu hardware actual con el software correcto. La diferencia puede ser de 6x en rendimiento, por una fracción del coste.