TreeQuest de Sakana AI: Implemente equipos multimodelo que superen a los LLM individuales en un 30 %

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.
El laboratorio japonés de IA Sakana AI ha introducido una nueva técnica que permite que varios modelos de lenguaje grandes (LLM) cooperen en una sola tarea, creando así un equipo ideal de agentes de IA. El método, denominado Multi-LLM AB-MCTS , permite a los modelos realizar pruebas de ensayo y error y combinar sus fortalezas para resolver problemas demasiado complejos para cualquier modelo individual.
Para las empresas, este enfoque les permite desarrollar sistemas de IA más robustos y eficaces. En lugar de depender de un único proveedor o modelo, podrían aprovechar dinámicamente las ventajas de diferentes modelos de vanguardia, asignando la IA adecuada a la parte correcta de una tarea para lograr resultados superiores.
Los modelos de IA de vanguardia evolucionan rápidamente. Sin embargo, cada modelo presenta sus propias fortalezas y debilidades, derivadas de sus datos de entrenamiento y arquitectura únicos. Uno puede destacar en la programación, mientras que otro destaca en la escritura creativa. Los investigadores de Sakana AI argumentan que estas diferencias no son un error, sino una característica.
“Vemos estos sesgos y aptitudes diversas no como limitaciones, sino como recursos valiosos para crear inteligencia colectiva”, afirman los investigadores en su blog . Creen que, así como los mayores logros de la humanidad provienen de equipos diversos, los sistemas de IA también pueden lograr más trabajando juntos. “Al aunar su inteligencia, los sistemas de IA pueden resolver problemas insuperables para cualquier modelo individual”.
El nuevo algoritmo de Sakana AI es una técnica de "escalamiento en tiempo de inferencia" (también conocida como " escalamiento en tiempo de prueba "), un área de investigación que ha cobrado gran popularidad durante el último año. Si bien la mayor parte del enfoque en IA se ha centrado en el "escalamiento en tiempo de entrenamiento" (aumentar el tamaño de los modelos y entrenarlos con conjuntos de datos más grandes), el escalamiento en tiempo de inferencia mejora el rendimiento al asignar más recursos computacionales una vez que el modelo ya está entrenado.
Un enfoque común consiste en usar aprendizaje por refuerzo para incitar a los modelos a generar secuencias de cadena de pensamiento (CdP) más largas y detalladas, como se observa en modelos populares como OpenAI o3 y DeepSeek-R1 . Otro método más sencillo es el muestreo repetido, donde se le da al modelo la misma indicación varias veces para generar diversas soluciones potenciales, similar a una sesión de lluvia de ideas. El trabajo de Sakana AI combina y desarrolla estas ideas.
“Nuestro marco ofrece una versión más inteligente y estratégica de Best-of-N (también conocido como muestreo repetido)”, declaró a VentureBeat Takuya Akiba, científico investigador de Sakana AI y coautor del artículo. “Complementa técnicas de razonamiento como el CoT largo mediante RL. Al seleccionar dinámicamente la estrategia de búsqueda y el LLM adecuado, este enfoque maximiza el rendimiento con un número limitado de llamadas LLM, lo que genera mejores resultados en tareas complejas”.
El núcleo del nuevo método es un algoritmo llamado Búsqueda de Árbol de Monte Carlo con Ramificación Adaptativa (AB-MCTS). Este algoritmo permite a un LLM realizar pruebas y errores de forma eficaz al equilibrar inteligentemente dos estrategias de búsqueda: profundizar y ampliar. La profundización implica tomar una respuesta prometedora y refinarla repetidamente, mientras que la ampliación implica generar soluciones completamente nuevas desde cero. AB-MCTS combina estos enfoques, lo que permite al sistema mejorar una buena idea, pero también pivotar y probar algo nuevo si se encuentra en un punto muerto o descubre otra dirección prometedora.
Para lograrlo, el sistema utiliza la Búsqueda de Árbol de Monte Carlo (MCTS), un algoritmo de toma de decisiones conocido por AlphaGo de DeepMind . En cada paso, AB-MCTS utiliza modelos de probabilidad para decidir si es más estratégico refinar una solución existente o generar una nueva.

Los investigadores llevaron esto un paso más allá con Multi-LLM AB-MCTS, que no solo decide qué hacer (refinar o generar), sino también qué LLM debe hacerlo. Al inicio de una tarea, el sistema desconoce qué modelo es el más adecuado para el problema. Empieza probando una combinación equilibrada de LLM disponibles y, a medida que avanza, aprende qué modelos son más eficaces, asignándoles una mayor carga de trabajo con el tiempo.
Los investigadores probaron su sistema Multi-LLM AB-MCTS en el banco de pruebas ARC-AGI-2 . ARC (Corpus de Abstracción y Razonamiento) está diseñado para evaluar una capacidad similar a la humana para resolver problemas novedosos de razonamiento visual, lo que dificulta notablemente la IA.
El equipo utilizó una combinación de modelos fronterizos, incluidos o4-mini , Gemini 2.5 Pro y DeepSeek-R1.
El conjunto de modelos logró encontrar soluciones correctas para más del 30 % de los 120 problemas de prueba, una puntuación que superó significativamente a la de cualquier modelo trabajando por separado. El sistema demostró la capacidad de asignar dinámicamente el mejor modelo para un problema determinado. En las tareas donde existía una ruta clara hacia una solución, el algoritmo identificó rápidamente el LLM más eficaz y lo utilizó con mayor frecuencia.

Aún más impresionante fue que el equipo observó casos en los que los modelos resolvieron problemas que antes eran imposibles para cualquiera de ellos. En un caso, una solución generada por el modelo o4-mini resultó incorrecta. Sin embargo, el sistema transmitió este intento fallido a DeepSeek-R1 y Gemini-2.5 Pro, que analizaron el error, lo corrigieron y finalmente generaron la solución correcta.
“Esto demuestra que Multi-LLM AB-MCTS puede combinar de forma flexible modelos de frontera para resolver problemas previamente irresolubles, ampliando los límites de lo que se puede lograr mediante el uso de LLM como inteligencia colectiva”, escriben los investigadores.

“Además de las ventajas y desventajas individuales de cada modelo, la tendencia a alucinar puede variar significativamente entre ellos”, afirmó Akiba. “Al crear un conjunto con un modelo con menor probabilidad de alucinar, se podría lograr lo mejor de ambos mundos: potentes capacidades lógicas y una sólida base. Dado que la alucinación es un problema importante en el contexto empresarial, este enfoque podría ser valioso para mitigarla”.
Para ayudar a desarrolladores y empresas a aplicar esta técnica, Sakana AI ha publicado el algoritmo subyacente como un framework de código abierto llamado TreeQuest , disponible bajo una licencia Apache 2.0 (utilizable con fines comerciales). TreeQuest proporciona una API flexible que permite a los usuarios implementar Multi-LLM AB-MCTS para sus propias tareas con puntuación y lógica personalizadas.
"Si bien estamos en las primeras etapas de la aplicación de AB-MCTS a problemas comerciales específicos, nuestra investigación revela un potencial significativo en varias áreas", afirmó Akiba.
Más allá del punto de referencia ARC-AGI-2, el equipo pudo aplicar con éxito AB-MCTS a tareas como la codificación algorítmica compleja y la mejora de la precisión de los modelos de aprendizaje automático.
«AB-MCTS también podría ser muy eficaz para problemas que requieren un proceso iterativo de prueba y error, como la optimización de las métricas de rendimiento del software existente», afirmó Akiba. «Por ejemplo, podría utilizarse para encontrar automáticamente maneras de mejorar la latencia de respuesta de un servicio web».
El lanzamiento de una herramienta práctica y de código abierto podría allanar el camino para una nueva clase de aplicaciones de inteligencia artificial empresarial más potentes y confiables.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat