TreeQuest de Sakana AI : Déployez des équipes multi-modèles qui surpassent les LLM individuels de 30 %

Envie d'informations plus pertinentes dans votre boîte mail ? Inscrivez-vous à nos newsletters hebdomadaires pour recevoir uniquement les informations essentielles pour les leaders de l'IA, des données et de la sécurité en entreprise. Abonnez-vous maintenant.
Le laboratoire japonais d'IA Sakana AI a introduit une nouvelle technique permettant à plusieurs grands modèles de langage (LLM) de coopérer sur une même tâche, créant ainsi une véritable « dream team » d'agents IA. Cette méthode, baptisée Multi-LLM AB-MCTS , permet aux modèles d'effectuer des essais et erreurs et de combiner leurs atouts spécifiques pour résoudre des problèmes trop complexes pour un modèle individuel.
Pour les entreprises, cette approche permet de développer des systèmes d'IA plus robustes et performants. Au lieu de dépendre d'un fournisseur ou d'un modèle unique, les entreprises pourraient exploiter de manière dynamique les atouts de différents modèles pionniers, en affectant la bonne IA à la bonne partie d'une tâche pour obtenir des résultats supérieurs.
Les modèles d'IA de pointe évoluent rapidement. Cependant, chaque modèle présente des forces et des faiblesses qui lui sont propres, découlant de ses données d'entraînement et de son architecture uniques. L'un peut exceller en codage, tandis qu'un autre excelle en écriture créative. Les chercheurs de Sakana AI affirment que ces différences ne sont pas un bug, mais une fonctionnalité.
« Nous considérons ces biais et ces aptitudes variées non pas comme des limites, mais comme des ressources précieuses pour créer une intelligence collective », affirment les chercheurs dans leur article de blog . Ils sont convaincus que, tout comme les plus grandes réussites de l'humanité sont le fruit d'équipes diversifiées, les systèmes d'IA peuvent également accomplir davantage en travaillant ensemble. « En mutualisant leurs intelligences, les systèmes d'IA peuvent résoudre des problèmes insurmontables pour un modèle unique. »
Le nouvel algorithme de Sakana AI repose sur une technique de « mise à l'échelle du temps d'inférence » (également appelée « mise à l'échelle du temps de test »), un domaine de recherche devenu très populaire l'année dernière. Alors que l'IA se concentre principalement sur la « mise à l'échelle du temps d'entraînement » (agrandir les modèles et les entraîner sur des ensembles de données plus volumineux), la mise à l'échelle du temps d'inférence améliore les performances en allouant davantage de ressources de calcul après l'entraînement d'un modèle.
Une approche courante consiste à utiliser l'apprentissage par renforcement pour inciter les modèles à générer des séquences de chaîne de pensée (CdP) plus longues et plus détaillées, comme le montrent des modèles populaires tels qu'OpenAI o3 et DeepSeek-R1 . Une autre méthode, plus simple, consiste à répéter l'échantillonnage, où le modèle reçoit la même invite plusieurs fois pour générer diverses solutions potentielles, à la manière d'une séance de brainstorming. Les travaux de Sakana AI combinent et développent ces idées.
« Notre cadre offre une version plus intelligente et plus stratégique du Best-of-N (ou échantillonnage répété) », a déclaré à VentureBeat Takuya Akiba, chercheur chez Sakana AI et co-auteur de l'article. « Il complète les techniques de raisonnement comme le CoT long via l'apprentissage par renforcement. En sélectionnant dynamiquement la stratégie de recherche et le LLM approprié, cette approche maximise les performances avec un nombre limité d'appels LLM, offrant ainsi de meilleurs résultats sur les tâches complexes. »
Au cœur de cette nouvelle méthode se trouve un algorithme appelé Recherche arborescente de Monte-Carlo adaptative à branchements (AB-MCTS). Il permet aux étudiants de Master en Droit (LLM) de réaliser efficacement des essais-erreurs en équilibrant intelligemment deux stratégies de recherche : la recherche approfondie et la recherche élargie. La recherche approfondie consiste à prendre une réponse prometteuse et à l'affiner sans cesse, tandis que la recherche élargie consiste à générer des solutions entièrement nouvelles de A à Z. L'AB-MCTS combine ces approches, permettant au système d'améliorer une bonne idée, mais aussi de pivoter et d'essayer quelque chose de nouveau s'il se heurte à une impasse ou découvre une nouvelle voie prometteuse.
Pour ce faire, le système utilise la recherche arborescente de Monte-Carlo (MCTS), un algorithme décisionnel célèbre utilisé par AlphaGo de DeepMind . À chaque étape, AB-MCTS utilise des modèles probabilistes pour déterminer s'il est plus stratégique d'affiner une solution existante ou d'en générer une nouvelle.

Les chercheurs ont poussé cette démarche encore plus loin avec Multi-LLM AB-MCTS, qui détermine non seulement ce qu'il faut faire (affiner ou générer), mais aussi quel LLM doit le faire. Au début d'une tâche, le système ne sait pas quel modèle est le mieux adapté au problème. Il commence par tester une combinaison équilibrée de LLM disponibles et, au fil de sa progression, identifie les modèles les plus efficaces, leur allouant progressivement une part de travail plus importante.
Les chercheurs ont testé leur système Multi-LLM AB-MCTS sur le benchmark ARC-AGI-2 . ARC (Abstraction and Reasoning Corpus) est conçu pour tester une capacité humaine à résoudre de nouveaux problèmes de raisonnement visuel, ce qui le rend notoirement difficile pour l'IA.
L'équipe a utilisé une combinaison de modèles Frontier, notamment o4-mini , Gemini 2.5 Pro et DeepSeek-R1.
L'ensemble des modèles a pu trouver des solutions correctes à plus de 30 % des 120 problèmes testés, un score nettement supérieur à celui de n'importe quel modèle isolé. Le système a démontré sa capacité à attribuer dynamiquement le meilleur modèle à un problème donné. Pour les tâches où une solution était clairement définie, l'algorithme a rapidement identifié le modèle de référence le plus efficace et l'a utilisé plus fréquemment.

Plus impressionnant encore, l'équipe a observé des cas où les modèles résolvaient des problèmes auparavant impossibles pour chacun d'entre eux. Dans un cas, une solution générée par le modèle o4-mini était incorrecte. Cependant, le système a transmis cette tentative erronée à DeepSeek-R1 et Gemini-2.5 Pro, qui ont pu analyser l'erreur, la corriger et finalement produire la bonne réponse.
« Cela démontre que Multi-LLM AB-MCTS peut combiner de manière flexible des modèles de frontière pour résoudre des problèmes auparavant insolubles, repoussant les limites de ce qui est réalisable en utilisant les LLM comme une intelligence collective », écrivent les chercheurs.

« Outre les avantages et les inconvénients de chaque modèle, la tendance aux hallucinations peut varier considérablement d'un modèle à l'autre », a déclaré Akiba. « En créant un ensemble avec un modèle moins susceptible d'halluciner, il serait possible d'obtenir le meilleur des deux mondes : de puissantes capacités logiques et une forte ancrage. Les hallucinations étant un problème majeur en entreprise, cette approche pourrait s'avérer précieuse pour les atténuer. »
Pour aider les développeurs et les entreprises à appliquer cette technique, Sakana AI a publié l'algorithme sous-jacent sous forme de framework open source appelé TreeQuest , disponible sous licence Apache 2.0 (utilisable à des fins commerciales). TreeQuest fournit une API flexible permettant aux utilisateurs d'implémenter Multi-LLM AB-MCTS pour leurs propres tâches, avec une notation et une logique personnalisées.
« Bien que nous soyons aux premiers stades de l’application de l’AB-MCTS à des problèmes spécifiques orientés vers les entreprises, nos recherches révèlent un potentiel important dans plusieurs domaines », a déclaré Akiba.
Au-delà du benchmark ARC-AGI-2, l’équipe a pu appliquer avec succès AB-MCTS à des tâches telles que le codage algorithmique complexe et l’amélioration de la précision des modèles d’apprentissage automatique.
« AB-MCTS pourrait également s'avérer très efficace pour les problèmes nécessitant une approche itérative par essais et erreurs, comme l'optimisation des indicateurs de performance des logiciels existants », a déclaré Akiba. « Par exemple, il pourrait être utilisé pour trouver automatiquement des moyens d'améliorer la latence de réponse d'un service web. »
La sortie d’un outil pratique et open source pourrait ouvrir la voie à une nouvelle classe d’applications d’IA d’entreprise plus puissantes et plus fiables.
Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de votre abonnement. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat