MCTS + PPO para LLMs: distilacion de busqueda en arboles

Por que el razonamiento de los LLMs todavia tiene techo: el problema de fondo

Los modelos de lenguaje han avanzado a pasos agigantados, pero hay un limite que muy pocas arquitecturas han logrado romper: razonar de forma robusta en problemas combinatoriales complejos. Mientras que sistemas como AlphaZero alcanzaron rendimiento sobrehumano en ajedrez y Go combinando politicas de red neuronal con busqueda en tiempo de inferencia, el mundo de los LLMs ha adoptado ese enfoque solo de forma parcial.

Un experimento reciente de Ayush Tambde, publicado en marzo de 2026, pone directamente a prueba esta idea: ¿se puede aplicar Monte Carlo Tree Search (MCTS) sobre pasos de razonamiento de un LLM, destilar esas trayectorias mejoradas de vuelta al modelo usando PPO, y superar los metodos clasicos de RL como GRPO? Los resultados son pequenos en escala, pero conceptualmente importantes para cualquier equipo que trabaje con IA aplicada.

El experimento: MCTS sobre pasos de razonamiento con Qwen-2.5-1.5B

El modelo base utilizado es Qwen-2.5-1.5B-Instruct, un modelo compacto de Alibaba con 1,500 millones de parametros. El entorno de prueba elegido es Countdown, un juego aritmetico combinatorial: dado un conjunto de enteros positivos, el objetivo es llegar a un numero objetivo usando operaciones estandar (+, -, /, *).

👥 ¿Quieres ir más allá de la noticia?

En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.

👥 Unirme a la comunidad

La eleccion de Countdown no es casual. La hipotesis central es que los problemas combinatoriales se benefician mas de la busqueda paralela y adaptativa que permite MCTS, a diferencia de problemas como GSM8K donde el razonamiento secuencial ya produce buenos resultados. El set de entrenamiento cuenta con 20,000 muestras y la evaluacion se realiza sobre 820 muestras independientes.

Como funciona la busqueda de arboles aplicada al lenguaje

El diseno del algoritmo sigue la logica del paper Tree-of-Thoughts (Yao et al., 2023): en lugar de ramificar token a token (lo que genera arboles enormes con poco valor), la busqueda opera a nivel de pasos de razonamiento completos, representados con etiquetas <step>...</step>. Los nodos terminales corresponden a respuestas finales en etiquetas <answer>...</answer>.

La exploracion usa pUCT (la variante utilizada en AlphaZero) en lugar de UCT estandar, justamente porque DeepSeek-R1 reporto resultados limitados con MCTS, y existe evidencia de que esa limitacion se debe precisamente al uso de UCT sin priors de politica. Con pUCT, las probabilidades logaritmicas acumuladas de cada secuencia se normalizan via softmax para obtener los priors de accion, evitando la inestabilidad numerica de las probabilidades brutas.

Ademas, la implementacion incorpora MCTS paralelo con perdidas virtuales: N agentes comparten el mismo arbol de busqueda por muestra y usan penalizaciones temporales para forzar diversidad en la exploracion, lo cual funciona como un eje adicional de escalado computacional.

Funcion de valor y seleccion de trayectorias

El algoritmo incluye una cabeza de valor V(st) implementada como un MLP seguido de una funcion tanh sobre el estado oculto final del transformer. Esto es clave: sin una buena funcion de valor, el arbol no puede guiarse eficientemente hacia trayectorias de mayor calidad.

Tras completar M iteraciones de MCTS por muestra, cada worker realiza una seleccion greedy por maximo conteo de visitas desde la raiz, y envia esa trayectoria a un buffer compartido para el entrenamiento PPO. El objetivo de entrenamiento combina la perdida CISPO (una variante de PPO con muestreo de importancia truncado), una perdida de valor y una penalizacion KL respecto al modelo de referencia:

L_total = c_ppo * L_ppo + c_value * L_value + c_KL * KL(π_θ || π_ref)

Resultados: MCTS supera a GRPO y a Best-of-N

La metrica de evaluacion es mean@16: se generan 16 salidas por prompt, se califican con recompensa binaria 0/1 y se promedia. Los resultados clave son:

MCTS destilado (sin harness de busqueda en inferencia): 11.3% mean@16
CISPO baseline (equivalente a GRPO): 8.4% mean@16
Best-of-N (N=64, sin busqueda en arbol): 7.7% mean@16
Modelo instruct preRL: 3.1% mean@16

Esto representa una mejora de 8.2 puntos porcentuales sobre el modelo base, y un 34% de mejora relativa sobre CISPO. Los numeros absolutos son bajos porque se trata de un modelo de 1.5B en experimentos de pequena escala, pero la direccion del resultado es la que importa.

El caso curioso del Best-of-N

Uno de los hallazgos mas interesantes es que Best-of-N resulta ser el metodo mas debil, pese a que su recompensa de entrenamiento es significativamente mas alta que la de los otros metodos. La explicacion teorica: si el modelo puede seleccionar entre 64 trayectorias y hay al menos una correcta entre ellas, el incentivo para desarrollar razonamiento robusto en cada intento individual desaparece. El modelo aprende a ‘sobrevivir por volumen’, no a pensar mejor.

Esto tiene una implicacion practica directa: la calidad de la senal de entrenamiento importa mas que la cantidad de ejemplos correctos observados. La busqueda en arbol fuerza al modelo a internalizar estrategias de razonamiento mas generales.

Infraestructura y escalado: como se corre esto en produccion

El experimento se ejecuto en un nodo de 8x H100 provisto por Andromeda. La arquitectura del sistema es asimetrica: 6 GPUs actuan como generadores MCTS y 2 como entrenadores. La coordinacion se realiza via gRPC para las solicitudes de inferencia, Redis Streams para el buffer de trayectorias y Redis pub/sub para sincronizar pesos entre generadores y entrenadores cada 8 pasos de gradiente.

Este diseno refleja un patron que cada vez mas equipos de ML adoptaran: separar el compute de exploracion del compute de optimizacion, lo cual permite escalar ambos de forma independiente y abre la puerta a experimentos asincronos de mayor escala.

Contexto mas amplio: donde encaja esto en el ecosistema de LLMs en 2026

Este trabajo dialoga directamente con las tendencias mas relevantes en el campo. Investigaciones recientes como Empirical-MCTS (arXiv, febrero 2026) demuestran que MCTS con memoria acumulada puede superar a baselines como LLaMA-Berry en benchmarks como AIME25 (73.3% vs 63.3%), usando ‘experiencia’ acumulada entre instancias sin actualizar pesos.

Por su parte, el reporte de estado de LLMs de Sebastian Raschka (diciembre 2025) documenta como el RL ocupa ya entre el 70% y el 80% del compute de diferenciacion en los entrenamientos mas avanzados, con el escalado en inferencia contribuyendo tanto como la arquitectura base a los mejores benchmarks. Y los analisis de tendencias de HuggingFace para 2026 senalan el razonamiento reflexivo en tiempo de test como uno de los vectores de mejora mas prometedores para los proximos 12-18 meses.

En este contexto, la propuesta de Tambde es una contribucion abierta y reproducible: todo el codigo esta disponible en github.com/at2005/llm-mcts, lo que la hace especialmente valiosa para equipos de ML en startups que quieran experimentar sin partir desde cero.

Implicaciones practicas para founders y equipos de IA

Si lides un equipo que trabaja con modelos de lenguaje en produccion, hay varias lecturas accionables en este trabajo:

MCTS no esta muerto para LLMs. La clave es operar a nivel de pasos de razonamiento, no de tokens, y usar pUCT en lugar de UCT. DeepSeek-R1 puede haber fallado por una decision de implementacion, no por una limitacion fundamental.
Destilar busqueda en el modelo base reduce costos de inferencia. El modelo MCTS evaluado en este experimento no necesita un harness de busqueda en produccion: la mejora quedo incorporada en los pesos. Esto es critico para startups que necesitan latencia baja y costos de compute predecibles.
El diseno de la funcion de recompensa importa mas de lo que parece. Usar recompensa esparsa (0/1) genero entrenamiento inestable; la funcion densa basada en distancia al objetivo fue clave para la convergencia.
La arquitectura del sistema de entrenamiento es un factor competitivo. La separacion generadores/entrenadores con Redis y gRPC es un patron que equipos bien organizados pueden replicar incluso con recursos moderados.

Conclusion

El experimento de Ayush Tambde es un recordatorio oportuno de que muchas tecnicas del mundo de los juegos de tablero todavia tienen mucho por aportar al campo de los LLMs. MCTS con pUCT sobre pasos de razonamiento, destilado via PPO con perdida CISPO, supera a GRPO y a Best-of-N en un entorno combinatorial desafiante, incluso en un modelo tan pequeno como Qwen-2.5-1.5B.

Los numeros absolutos son humildes, pero la arquitectura del metodo es escalable: mas workers paralelos, mas iteraciones MCTS, modelos mas grandes. Este es exactamente el tipo de trabajo ‘ladrillos fundamentales’ que en 12-18 meses puede traducirse en mejoras sustanciales en modelos de razonamiento que los founders usaran en sus productos.

El codigo es abierto. La infraestructura es replicable. La proxima iteracion podria venir de cualquier equipo con acceso a un cluster de GPUs y curiosidad suficiente.

Descubre como otros founders implementan IA avanzada y optimizacion de modelos en sus productos. Unete gratis a la comunidad de Ecosistema Startup.

Unirme a la comunidad