Sélectionner la langue

French

Down Icon

Sélectionnez un pays

America

Down Icon

Au-delà de l'IA statique : le nouveau cadre du MIT permet aux modèles de s'auto-apprendre

Au-delà de l'IA statique : le nouveau cadre du MIT permet aux modèles de s'auto-apprendre

Participez à l'événement auquel les chefs d'entreprise font confiance depuis près de deux décennies. VB Transform rassemble les personnes qui élaborent de véritables stratégies d'IA pour les entreprises. En savoir plus

Des chercheurs du MIT ont développé un cadre appelé Self-Adapting Language Models (SEAL) qui permet aux grands modèles linguistiques (LLM) d'apprendre et de s'adapter en continu en mettant à jour leurs propres paramètres internes. SEAL apprend à un LLM à générer ses propres données d'apprentissage et à mettre à jour ses instructions, lui permettant ainsi d'assimiler en permanence de nouvelles connaissances et d'apprendre de nouvelles tâches.

Ce cadre pourrait être utile pour les applications d’entreprise, en particulier pour les agents d’IA qui opèrent dans des environnements dynamiques, où ils doivent constamment traiter de nouvelles informations et adapter leur comportement.

Bien que les grands modèles linguistiques aient montré des capacités remarquables, leur adaptation à des tâches spécifiques, l’intégration de nouvelles informations ou la maîtrise de nouvelles compétences de raisonnement restent un obstacle important.

Actuellement, face à une nouvelle tâche, les LLM apprennent généralement à partir des données « telles quelles », grâce à des méthodes telles que le peaufinage ou l'apprentissage contextuel . Cependant, les données fournies ne sont pas toujours au format optimal pour un apprentissage efficace du modèle. Les approches existantes ne permettent pas au modèle de développer ses propres stratégies pour optimiser la transformation et l'apprentissage à partir des nouvelles informations.

« De nombreux cas d'utilisation en entreprise exigent plus qu'une simple mémorisation factuelle : ils nécessitent une adaptation plus profonde et continue », a déclaré Jyo Pari, doctorant au MIT et co-auteur de l'article, à VentureBeat. « Par exemple, un assistant de codage peut avoir besoin d'internaliser le framework logiciel spécifique d'une entreprise, ou un modèle orienté client peut avoir besoin d'apprendre le comportement ou les préférences uniques d'un utilisateur au fil du temps. »

Dans de tels cas, la récupération temporaire est insuffisante et les connaissances doivent être « intégrées » aux pondérations du modèle afin qu'elles influencent toutes les réponses futures.

« Dans le cadre d’une adaptation évolutive et efficace des modèles linguistiques, nous proposons de doter les LLM de la capacité de générer leurs propres données de formation et de définir des directives d’optimisation pour l’utilisation de ces données », indiquent les chercheurs du MIT dans leur article.

Présentation du cadre SEAL (source : arXiv)
Présentation du cadre SEAL Source : arXiv

La solution des chercheurs est SEAL (Self-Adapting Language Models). Elle utilise un algorithme d'apprentissage par renforcement (RL) pour entraîner un LLM à générer des « auto-éditions » – des instructions en langage naturel spécifiant comment le modèle doit mettre à jour ses propres pondérations. Ces auto-éditions peuvent restructurer de nouvelles informations, créer des exemples d'apprentissage synthétiques, voire définir les paramètres techniques du processus d'apprentissage lui-même.

Intuitivement, SEAL apprend à un modèle à créer son propre guide d'étude personnalisé. Au lieu de simplement lire un nouveau document (les données brutes), le modèle apprend à réécrire et reformater ces informations dans un style plus facile à assimiler et à internaliser. Ce processus associe plusieurs domaines clés de la recherche en IA, notamment la génération de données synthétiques, l'apprentissage par renforcement et l'entraînement au temps de test (TTT).

Le cadre fonctionne selon un système à deux boucles. Dans une « boucle interne », le modèle utilise une auto-édition pour effectuer une petite mise à jour temporaire de ses pondérations. Dans une « boucle externe », le système évalue si cette mise à jour a amélioré les performances du modèle sur une tâche cible. Si tel est le cas, le modèle reçoit une récompense positive, renforçant sa capacité à générer ce type d'auto-édition efficace à l'avenir. Au fil du temps, le LLM devient un expert en auto-apprentissage.

Dans leur étude, les chercheurs ont utilisé un modèle unique pour l'ensemble du cadre SEAL. Cependant, ils soulignent également que ce processus peut être découplé en un modèle « enseignant-élève ». Un modèle enseignant spécialisé pourrait être entraîné à générer des auto-corrections efficaces pour un modèle élève distinct, qui serait ensuite mis à jour. Cette approche pourrait permettre des processus d'adaptation plus spécialisés et plus efficaces en entreprise.

Les chercheurs ont testé SEAL dans deux domaines clés : l’incorporation des connaissances (la capacité à intégrer de manière permanente de nouveaux faits) et l’apprentissage en quelques étapes (la capacité à généraliser à partir d’une poignée d’exemples).

SEAL en intégration des connaissances (source : arXiv)
SEAL en incorporation des connaissances Source : arXiv

Pour l'intégration des connaissances, l'objectif était de voir si le modèle pouvait répondre à des questions sur un passage de texte sans y avoir accès pendant l'interrogatoire. Le réglage fin de Llama-3.2-1B sur le texte brut n'a apporté qu'une amélioration marginale par rapport au modèle de base.

Cependant, lorsque le modèle SEAL a créé des « auto-éditions » en générant plusieurs « implications » à partir d'un passage et a été entraîné sur ces données synthétiques, sa précision a grimpé à 47 %. Il est à noter que ces résultats ont surpassé ceux obtenus avec les données synthétiques générées par le modèle GPT-4.1 , beaucoup plus volumineux, ce qui suggère que le modèle a appris à créer lui-même un matériel d'entraînement supérieur.

SEAL dans l'apprentissage en quelques coups (source : arXiv)
SEAL dans l'apprentissage en quelques coups Source : arXiv

Pour l'apprentissage en quelques coups, les chercheurs ont testé SEAL sur des exemples du corpus de raisonnement abstrait (ARC), où le modèle doit résoudre des énigmes visuelles. Lors de la phase d'auto-édition, le modèle a dû générer l'intégralité de la stratégie d'adaptation, y compris les augmentations de données et les outils à utiliser, ainsi que le taux d'apprentissage à appliquer.

SEAL a obtenu un taux de réussite de 72,5 %, une amélioration spectaculaire par rapport au taux de 20 % obtenu sans formation RL et au taux de 0 % de l'apprentissage standard en contexte.

SEAL (ligne rouge) continue de s'améliorer au fil des cycles RL (source : arXiv)
SEAL (ligne rouge) continue de s'améliorer à travers les cycles RL Source : arXiv

Certains experts prévoient que les ressources en données d'entraînement de haute qualité, générées par l'homme, pourraient s'épuiser dans les années à venir. Les progrès pourraient bientôt dépendre de « la capacité d'un modèle à générer son propre signal d'entraînement hautement utile », comme le soulignent les chercheurs. Ils ajoutent : « Une prochaine étape logique consiste à méta-entraîner un modèle générateur de données synthétiques SEAL dédié, produisant de nouveaux corpus de pré-entraînement, permettant ainsi aux futurs modèles de s'adapter et d'atteindre une plus grande efficacité en matière de données sans recourir à du texte humain supplémentaire. »

Par exemple, les chercheurs proposent qu’un LLM puisse intégrer des documents complexes tels que des articles universitaires ou des rapports financiers et générer de manière autonome des milliers d’explications et d’implications pour approfondir sa compréhension.

« Cette boucle itérative d’expression et d’auto-raffinement pourrait permettre aux modèles de continuer à s’améliorer sur des sujets rares ou sous-représentés, même en l’absence de supervision externe supplémentaire », expliquent les chercheurs.

Cette capacité est particulièrement prometteuse pour la création d'agents d'IA . Les systèmes agents doivent acquérir et conserver progressivement des connaissances au fur et à mesure de leurs interactions avec leur environnement. SEAL propose un mécanisme pour cela. Après une interaction, un agent pourrait synthétiser une auto-édition pour déclencher une mise à jour de pondération, lui permettant ainsi d'internaliser les leçons apprises. Cela permet à l'agent d'évoluer au fil du temps, d'améliorer ses performances grâce à l'expérience et de réduire sa dépendance à la programmation statique ou aux interventions humaines répétées.

« SEAL démontre que les grands modèles linguistiques ne doivent pas nécessairement rester statiques après le pré-entraînement », écrivent les chercheurs. « En apprenant à générer leurs propres données synthétiques auto-éditées et à les appliquer via des mises à jour légères, ils peuvent intégrer de nouvelles connaissances de manière autonome et s'adapter à des tâches inédites. »

Cela dit, SEAL n'est pas une solution universelle. Par exemple, il peut souffrir d'un « oubli catastrophique », où des cycles de réapprentissage constants peuvent amener le modèle à assimiler ses connaissances antérieures.

« Dans notre mise en œuvre actuelle, nous encourageons une approche hybride », a déclaré Pari. « Les entreprises doivent choisir les connaissances suffisamment importantes pour être intégrées de manière permanente. »

Les données factuelles et évolutives peuvent rester dans la mémoire externe via RAG, tandis que les connaissances durables et façonnant le comportement sont mieux adaptées aux mises à jour du niveau de poids via SEAL.

« Ce type de stratégie de mémoire hybride garantit que les bonnes informations sont persistantes sans surcharger le modèle ni introduire d’oubli inutile », a-t-il déclaré.

Il convient également de noter que SEAL prend un temps considérable pour peaufiner les exemples d'auto-édition et entraîner le modèle. Cela rend l'édition continue en temps réel impossible dans la plupart des environnements de production.

« Nous envisageons un modèle de déploiement plus pratique, dans lequel le système collecte des données sur une période donnée – par exemple quelques heures ou une journée – puis effectue des auto-corrections ciblées à intervalles réguliers de mise à jour », a déclaré Pari. « Cette approche permet aux entreprises de maîtriser le coût d'adaptation tout en bénéficiant de la capacité de SEAL à internaliser les nouvelles connaissances. »

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de votre abonnement. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow