Subquadratic: 12M tokens en LLM ¿solución real o claim?

Subquadratic promete ventanas de contexto de 12 millones de tokens: ¿el fin del cuello de botella en LLM?

La startup Subquadratic afirma haber resuelto el problema matemático de la atención cuadrática que limita a los modelos de lenguaje actuales, con su modelo SubQ capaz de procesar ventanas de contexto de hasta 12 millones de tokens. Esta cifra es órdenes de magnitud superior a lo que ofrecen GPT-4, Claude y otros LLM comerciales, cuyas ventanas rara vez superan los 200.000 tokens en la práctica.

Para un founder que construye productos con IA, esto podría significar inferencias más baratas, capacidad de analizar documentos completos sin truncamiento, y la posibilidad de mantener conversaciones extensas sin perder contexto. Sin embargo, la comunidad técnica mantiene escepticismo: no hay paper público ni benchmarks reproducibles que validen las afirmaciones de Subquadratic.

¿Qué es la atención cuadrática y por qué frena a los LLM?

El mecanismo de autoatención en transformers compara cada token con todos los demás tokens de la secuencia para determinar qué información es relevante. Esto genera un coste computacional que crece de forma cuadrática (O(n²)) con la longitud de la secuencia.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

En términos prácticos: si duplicas la longitud del contexto, el coste de cómputo y memoria no se duplica, sino que se cuadruplica. Esto afecta tanto al entrenamiento como a la inferencia, limitando cuántos tokens se pueden procesar por paso y a qué velocidad.

Los mecanismos de atención calculan similitudes por pares entre todos los tokens, lo que implica construir matrices de atención de tamaño n × n. Para una ventana de 100.000 tokens, esto requiere almacenar y procesar 10 mil millones de relaciones potenciales. Para 12 millones de tokens, la cifra sería astronómica con atención completa tradicional.

¿Cómo afirma Subquadratic haber resuelto el problema?

Aquí aparece la primera bandera roja: Subquadratic no ha publicado su paper técnico ni documentación arquitectónica detallada que permita verificar su claim. Por el nombre y el contexto del campo, una solución «subquadrática» normalmente intenta reducir el coste por debajo de O(n²) mediante estrategias como:

Atención dispersa: cada token atiende solo a un subconjunto de tokens relevantes
Atención lineal: reescribe la atención para escalar aproximadamente de forma lineal
Cachés y estado recurrente: mantiene información comprimida sin recomputar todo
Arquitecturas híbridas: combinan bloques eficientes con atención completa en capas selectivas

El problema es que muchas aproximaciones reducen coste en papel pero sacrifican capacidad de recuperar dependencias largas, robustez en tareas complejas o compatibilidad con entrenamiento estable. Las comparaciones relevantes deben incluir calidad, latencia, memoria y longitud máxima efectiva, no solo complejidad asintótica.

¿Qué alternativas existen en el mercado?

El panorama de eficiencia en LLM está lleno de propuestas similares. Kimi Linear, del equipo de Moonshot AI, presenta una arquitectura híbrida que combina módulos Kimi Delta Attention (KDA) con capas de atención completa tradicional intercaladas. Su enfoque busca eficiencia sin renunciar a la expresividad, y ha publicado benchmarks que muestran rendimiento superior en tareas de contexto largo.

Otras estrategias en producción incluyen:

StreamingLLM y variantes de evicción inteligente del KV-cache para mantener coherencia en secuencias largas con coste acotado
Position Interpolation y extensiones de RoPE para ampliar ventanas sin distorsionar representaciones posicionales
RAG (Retrieval-Augmented Generation): en vez de confiar en ventanas masivas, recuperar solo la información relevante de bases de datos vectoriales

La diferencia clave: Kimi Linear publicó su paper en arXiv, liberó código en GitHub y kernels compatibles con vLLM. Subquadratic, hasta donde se sabe públicamente, no ha hecho lo mismo.

El escepticismo técnico es saludable

En el ecosistema de IA, las afirmaciones extraordinarias requieren evidencia extraordinaria. La crítica técnica habitual en este espacio es que muchas startups anuncian «soluciones» que en realidad son trade-offs no declarados: reducen coste pero pierden calidad en tareas de razonamiento complejo, o funcionan bien en benchmarks sintéticos pero fallan en casos reales.

Para validar realmente el claim de Subquadratic, la comunidad necesitaría:

Paper técnico describiendo la arquitectura capa por capa
Benchmarks reproducibles comparando contra baselines modernos (transformers con atención completa, Mamba, RWKV, Kimi Linear)
Métricas de calidad en tareas reales, no solo de eficiencia
Código abierto o al menos API pública para testing independiente

Hasta que esto ocurra, el escepticismo es la posición racional. No significa que SubQ no funcione, sino que no hay evidencia pública suficiente para evaluarlo.

¿Qué significa esto para tu startup?

Si estás construyendo productos con LLM en 2026, el problema de atención cuadrática te afecta directamente en tres dimensiones: costes de inferencia, latencia y calidad en contextos largos. Aquí hay acciones concretas que puedes implementar hoy, sin esperar a que Subquadratic valide sus claims:

Acción 1: Evalúa si realmente necesitas ventanas masivas

Antes de buscar modelos con contextos de millones de tokens, pregunta: ¿qué problema estás resolviendo? En muchos casos, RAG bien implementado es más eficiente que ventanas gigantes. Recuperar solo los fragmentos relevantes de un documento y pasarlos al LLM reduce costes y mejora precisión.

Usa embeddings + búsqueda semántica para identificar los pasajes relevantes
Inyecta solo esos pasajes en el prompt, no el documento completo
Mantén un bloque fijo con instrucciones y formato, separado del contenido variable

Acción 2: Optimiza tu arquitectura de inferencia

Si trabajas con contextos largos, implementa estrategias probadas:

Evita el «sándwich infinito»: si tu prompt supera varios miles de tokens, coloca la información crítica al principio (marco) o al final (brief), nunca en el medio
Separa datos estables de lo efímero: preferencias, formatos y políticas en un bloque fijo que se reinyecta; la conversación diaria en otro
Evalúa modelos con atención eficiente: Kimi Linear, modelos con sparse attention, o arquitecturas híbridas pueden ofrecer mejor relación coste-rendimiento

Acción 3: Monitorea el rendimiento real, no solo las specs

Que un modelo anuncie «1 millón de tokens» no significa que use toda la información con la misma fiabilidad. El rendimiento suele degradarse si la información crítica queda en posiciones desfavorables dentro del prompt.

Haz tests A/B con diferentes longitudes de contexto
Mide precisión en tareas reales, no solo throughput
Considera latencia percibida por el usuario final, no solo tokens/segundo

Conclusión

La afirmación de Subquadratic es interesante pero, sin validación técnica pública, debe tratarse como claim no verificado. Para founders, la lección es más amplia: el espacio de eficiencia en LLM está evolucionando rápidamente, con múltiples enfoques (atención dispersa, lineal, híbrida, RAG) compitiendo por resolver el mismo problema.

En lugar de esperar una solución mágica, la estrategia ganadora en 2026 es combinar múltiples técnicas: arquitecturas eficientes cuando estén disponibles, RAG para recuperación selectiva, y optimización de prompts para maximizar el uso del contexto disponible. Y siempre, validar con datos propios antes de comprometer tu arquitectura a una solución no probada.