Sakana AI 7B: orquesta GPT-5 y Claude con 3 pasos

¿Por qué un modelo de 7B supera a GPT-5 y Claude Sonnet 4?

Sakana AI logró algo que parecía contraintuitivo: un modelo de apenas 7 mil millones de parámetros superó a modelos frontier como GPT-5, Claude Sonnet 4 y Gemini 2.5 Pro en benchmarks de razonamiento y código. El secreto no está en el tamaño, sino en la orquestación inteligente.

El RL Conductor, entrenado mediante reinforcement learning, alcanza 83.9% en LiveCodeBench, 87.5% en GPQA-Diamond y 93.3% en AIME25. Estos resultados superan no solo a modelos individuales, sino también a pipelines multi-agente diseñados manualmente como Mixture-of-Agents y RouterDC.

Lo más relevante para founders: el Conductor logra esto con un promedio de solo 3 pasos por workflow y usando 1,820 tokens por pregunta, frente a los 11,203 tokens que consumen baselines como MoA. Eso se traduce en costos operativos significativamente menores.

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

¿Qué problema resuelve realmente el RL Conductor?

Si has construido pipelines con LangChain o frameworks similares, sabes que funcionan bien hasta que la distribución de queries cambia. Y siempre cambia. Yujin Tang, co-autor del paper publicado en ICLR 2026, lo explica claramente: los frameworks con pipelines hard-coded funcionan para casos específicos, pero colapsan en producción cuando hay demandas heterogéneas.

El problema de fondo es que ningún modelo es óptimo para todas las tareas. Un modelo puede destacar en razonamiento científico, otro en generación de código, otro en lógica matemática. Predecir y hard-codear la combinación ideal para cada query es prácticamente imposible.

El RL Conductor elimina esta rigidez. En lugar de reglas estáticas, genera workflows personalizados en lenguaje natural para cada input, construyendo cadenas secuenciales, estructuras en árbol paralelas o incluso bucles recursivos según lo que demande el problema.

¿Cómo aprende el Conductor a orquestar sin intervención humana?

Durante el entrenamiento, el modelo recibe una tarea, un pool de workers y una señal de reward basada en si su respuesta y formato de output son correctos. Mediante un algoritmo de RL simple de trial-and-error, descubre orgánicamente qué combinaciones de instrucciones y estructuras de comunicación yield el mayor reward.

El resultado: el modelo adopta automáticamente estrategias avanzadas como prompt engineering dirigido, refinamiento iterativo y meta-prompt optimization. Aprende a medir la dificultad de la tarea y ajusta su estrategia en consecuencia.

Para preguntas simples de recall factual, resuelve en un solo paso o con un setup básico de dos agentes. Para problemas complejos de código, construye workflows extensos con hasta cuatro agentes dedicados a planning, implementación y verificación.

¿Qué significa esto para tu startup?

Si tu startup depende de APIs de LLMs o estás construyendo productos con agentes autónomos, hay tres implicaciones directas:

Reducción de costos de inferencia: El Conductor usa 6x menos tokens que pipelines manuales. Para startups que escalan a miles de queries diarias, esto puede representar ahorros de miles de dólares mensuales en costos de API.
Menos ingeniería de mantenimiento: Los pipelines hard-coded requieren ajustes constantes cuando cambian los patrones de uso. La orquestación automática reduce la deuda técnica asociada a mantener reglas de routing manuales.
Mejor performance sin cambiar de modelo: En lugar de migrar a modelos más caros, puedes optimizar cómo coordinas los que ya usas. El Conductor demuestra que la arquitectura importa más que el tamaño del modelo base.

Acciones concretas que puedes implementar hoy

No necesitas esperar a que Sakana lance Fugu globalmente. Puedes aplicar estos principios ahora:

Audita tu consumo de tokens: Mide cuántos tokens gastas por query en tus pipelines actuales. Si superas los 5,000 tokens promedio para tareas rutinarias, hay espacio de optimización.
Implementa routing dinámico básico: Clasifica queries por complejidad (simple/medio/complejo) y asigna modelos distintos a cada categoría. Usa modelos pequeños para tareas simples y reserva frontier models solo para lo complejo.
Prueba Sakana Fugu en beta: Si tu equipo pasa más tiempo guiando agentes que construyendo producto, evalúa Sakana Fugu. Ofrece dos variantes: Fugu Mini para baja latencia y Fugu Ultra para workloads demandantes.
Documenta patrones de fallo: Antes de automatizar, identifica en qué casos tus pipelines actuales rompen. Esa data te ayudará a definir rewards claros si decides entrenar tu propio conductor.

El producto comercial: Sakana Fugu

El modelo de investigación de 7B no está disponible públicamente, pero Sakana AI productizó la tecnología en Sakana Fugu, actualmente en fase beta. El servicio es accesible mediante una API compatible con OpenAI, lo que permite integración seamless en aplicaciones existentes sin gestionar múltiples API keys.

Fugu apunta a industrias donde la adopción de AI no ha generado ganancias de productividad significativas debido a las limitaciones de generalización de pipelines hard-coded: finanzas, defensa, desarrollo de software, investigación profunda y desarrollo de estrategia.

Para arquitectos enterprise evaluando cuándo desplegar orquestación RL versus routing tradicional, Tang señala que el sweet spot llega cuando los equipos sienten que dedican tiempo desproporcionado a guiar sus agentes subyacentes. Para queries simples, sigue siendo difícil superar la proposición económica de un modelo local corriendo directamente en la máquina del usuario.

Competidores y alternativas en el mercado

El espacio de orquestación de agentes está calentándose. Además de Sakana, existen alternativas que vale la pena evaluar:

LangChain: El framework más adoptado, pero requiere hard-coding de pipelines.
AutoGen (Microsoft): Enfocado en conversaciones multi-agente, con soporte para routing dinámico limitado.
Mixture-of-Agents: Baseline que el Conductor supera en benchmarks y costos.
RouterDC y Smoothie: Frameworks de routing especializado con enfoques distintos.

La ventaja diferencial del RL Conductor es que aprende la estrategia óptima en lugar de depender de reglas predefinidas. Esto lo hace más adaptable a cambios en la distribución de queries, un problema común en productos con bases de usuarios grandes y heterogéneas.

Limitaciones y consideraciones de governance

La orquestación automática introduce riesgos de interpretabilidad: los agentes autónomos pueden generar workflows invisibles. Tang señala que estos riesgos son funcionalmente similares a los reasoning traces ocultos de APIs cerradas top-tier actuales, y el sistema se gestiona con guardrails establecidos para minimizar alucinaciones.

Para startups en sectores regulados (fintech, healthtech, legaltech), es crítico implementar logging detallado de cada decisión del Conductor y mantener capacidad de override humano para casos sensibles.

El futuro: más allá de texto y código

Sakana ve potencial para extender la orquestación dinámica a entornos cross-modal. Tang menciona que los frameworks Conductor cross-modal podrían convertirse en la base para sistemas de AI física más autónomos y auto-coordinados. Esto abriría aplicaciones en robótica, manufactura y operaciones físicas donde múltiples agentes deben coordinar acciones en el mundo real.

Para founders, la señal es clara: la próxima frontera no está en modelos más grandes, sino en arquitecturas más inteligentes que maximicen el valor de los modelos existentes.