Verder dan statische AI: dankzij het nieuwe raamwerk van MIT kunnen modellen zichzelf leren

Neem deel aan het evenement dat al bijna twintig jaar door leiders in het bedrijfsleven wordt vertrouwd. VB Transform brengt de mensen samen die een echte AI-strategie voor bedrijven ontwikkelen. Lees meer
Onderzoekers van MIT hebben een raamwerk ontwikkeld genaamd Self-Adapting Language Models (SEAL). Dit raamwerk stelt grote taalmodellen (LLM's) in staat om continu te leren en zich aan te passen door hun eigen interne parameters bij te werken. SEAL leert een LLM om zijn eigen trainingsdata te genereren en instructies bij te werken, waardoor hij permanent nieuwe kennis kan absorberen en nieuwe taken kan leren.
Dit raamwerk kan nuttig zijn voor zakelijke toepassingen, met name voor AI-agenten die in dynamische omgevingen werken, waar ze voortdurend nieuwe informatie moeten verwerken en hun gedrag moeten aanpassen.
Grote taalmodellen hebben weliswaar opmerkelijke mogelijkheden getoond, maar het aanpassen ervan aan specifieke taken, het integreren van nieuwe informatie en het beheersen van nieuwe redeneervaardigheden blijft een groot obstakel.
Momenteel leren LLM's, wanneer ze met een nieuwe taak worden geconfronteerd, doorgaans van data 'as-is' door middel van methoden zoals finetuning of in-context learning . De aangeleverde data is echter niet altijd in een optimaal formaat voor het model om efficiënt te leren. Bestaande benaderingen staan het model niet toe om eigen strategieën te ontwikkelen voor het optimaal transformeren en leren van nieuwe informatie.
"Veel zakelijke use cases vereisen meer dan alleen het onthouden van feiten – ze vereisen een diepgaandere, aanhoudende aanpassing", vertelde Jyo Pari, promovendus aan MIT en medeauteur van het artikel, aan VentureBeat. "Een programmeerassistent moet zich bijvoorbeeld het specifieke softwareframework van een bedrijf eigen maken, of een klantgericht model moet in de loop der tijd het unieke gedrag of de voorkeuren van een gebruiker leren kennen."
In zulke gevallen schiet het tijdelijk ophalen van informatie tekort en moet de kennis worden 'ingebakken' in de gewichten van het model, zodat deze alle toekomstige reacties beïnvloedt.
"Als stap in de richting van schaalbare en efficiënte aanpassing van taalmodellen stellen we voor om LLM's de mogelijkheid te geven om hun eigen trainingsdata te genereren en richtlijnen voor het gebruik van dergelijke data te verfijnen", stellen de MIT-onderzoekers in hun paper.

De oplossing van de onderzoekers heet SEAL, een afkorting voor Self-Adapting Language Models. Het gebruikt een reinforcement learning (RL)-algoritme om een LLM te trainen in het genereren van 'self-edits' – instructies in natuurlijke taal die specificeren hoe het model zijn eigen gewichten moet bijwerken. Deze self-edits kunnen nieuwe informatie herstructureren, synthetische trainingsvoorbeelden creëren of zelfs de technische parameters voor het leerproces zelf definiëren.
Intuïtief leert SEAL een model hoe het zijn eigen gepersonaliseerde studiegids kan creëren. In plaats van alleen een nieuw document (de ruwe data) te lezen, leert het model die informatie te herschrijven en te herformatteren in een stijl die het gemakkelijker kan absorberen en internaliseren. Dit proces combineert verschillende belangrijke gebieden van AI-onderzoek, waaronder synthetische datageneratie, reinforcement learning en test-time training (TTT).
Het framework werkt met een systeem met twee lussen. In een 'binnenlus' gebruikt het model een zelfbewerking om een kleine, tijdelijke update van de gewichten uit te voeren. In een 'buitenlus' evalueert het systeem of die update de prestaties van het model op een doeltaak heeft verbeterd. Zo ja, dan ontvangt het model een positieve beloning, wat zijn vermogen om in de toekomst dergelijke effectieve zelfbewerkingen te genereren, versterkt. Na verloop van tijd wordt de LLM een expert in het lesgeven zelf.
In hun onderzoek gebruikten de onderzoekers één model voor het gehele SEAL-framework. Ze merken echter ook op dat dit proces kan worden ontkoppeld tot een 'leraar-leerling'-model. Een gespecialiseerd leraarmodel zou getraind kunnen worden om effectieve zelfcorrecties te genereren voor een apart leerlingmodel, dat vervolgens zou worden bijgewerkt. Deze aanpak zou meer gespecialiseerde en efficiënte aanpassingsprocessen in bedrijfsomgevingen mogelijk kunnen maken.
De onderzoekers testten SEAL op twee belangrijke gebieden: kennisintegratie (het vermogen om nieuwe feiten permanent te integreren) en 'enkele-shot-leren' (het vermogen om te generaliseren op basis van een handvol voorbeelden).

Voor kennisintegratie was het doel om te kijken of het model vragen over een tekstpassage kon beantwoorden zonder toegang tot de passage tijdens de ondervraging. Het finetunen van Llama-3.2-1B op de ruwe tekst leverde slechts een marginale verbetering op ten opzichte van het basismodel.
Toen het SEAL-model echter "zelfbewerkingen" creëerde door verschillende "implicaties" uit een passage te genereren en met deze synthetische data werd getraind, steeg de nauwkeurigheid naar 47%. Opvallend was dat dit beter presteerde dan de resultaten van het gebruik van synthetische data gegenereerd door de veel grotere GPT-4.1 , wat suggereert dat het model heeft geleerd om superieur trainingsmateriaal voor zichzelf te creëren.

Voor leren met een beperkt aantal schoten testten de onderzoekers SEAL op voorbeelden uit het Abstract Reasoning Corpus (ARC), waarbij het model visuele puzzels moest oplossen. In de zelfbewerkingsfase moest het model de volledige aanpassingsstrategie genereren, inclusief welke data-aanvullingen en tools te gebruiken en welk leertempo te hanteren.
SEAL behaalde een succespercentage van 72,5%, een enorme verbetering ten opzichte van de 20% die werd behaald zonder RL-training en de 0% van de standaard in-context leren.

Sommige experts voorspellen dat de voorraad hoogwaardige, door mensen gegenereerde trainingsdata de komende jaren uitgeput zou kunnen raken. Vooruitgang kan binnenkort afhangen van "het vermogen van een model om zijn eigen zeer bruikbare trainingssignaal te genereren", zoals de onderzoekers het noemen. Ze voegen eraan toe: "Een logische volgende stap is het metatrainen van een speciaal SEAL-model voor synthetische datageneratoren dat nieuwe pretrainingscorpora produceert, waardoor toekomstige modellen kunnen schalen en een grotere data-efficiëntie kunnen bereiken zonder afhankelijk te zijn van extra menselijke tekst."
De onderzoekers stellen bijvoorbeeld voor dat een LLM complexe documenten, zoals academische artikelen of financiële rapporten, zou kunnen verwerken en autonoom duizenden verklaringen en implicaties zou kunnen genereren om het begrip ervan te verdiepen.
"Deze iteratieve lus van zelfexpressie en zelfverfijning zou ervoor kunnen zorgen dat modellen op het gebied van zeldzame of ondervertegenwoordigde onderwerpen steeds beter worden, zelfs als er geen extra extern toezicht nodig is", leggen de onderzoekers uit.
Deze mogelijkheid is vooral veelbelovend voor het bouwen van AI-agenten . Agentische systemen moeten stapsgewijs kennis verwerven en behouden terwijl ze interacteren met hun omgeving. SEAL biedt hiervoor een mechanisme. Na een interactie zou een agent een zelfbewerking kunnen synthetiseren om een gewichtsupdate te activeren, waardoor hij de geleerde lessen kan internaliseren. Dit stelt de agent in staat om in de loop der tijd te evolueren, zijn prestaties te verbeteren op basis van ervaring en zijn afhankelijkheid van statische programmering of herhaalde menselijke begeleiding te verminderen.
"SEAL toont aan dat grote taalmodellen na de pretraining niet statisch hoeven te blijven", schrijven de onderzoekers. "Door te leren hun eigen synthetische zelfbewerkingsdata te genereren en deze toe te passen via lichtgewicht updates, kunnen ze autonoom nieuwe kennis integreren en zich aanpassen aan nieuwe taken."
Dat gezegd hebbende, SEAL is geen universele oplossing. Het kan bijvoorbeeld last hebben van "catastrofaal vergeten", waarbij constante hertrainingscycli ertoe kunnen leiden dat het model zijn eerdere kennis onthoudt.
"In onze huidige implementatie moedigen we een hybride aanpak aan", aldus Pari. "Bedrijven moeten selectief zijn in welke kennis belangrijk genoeg is om permanent te integreren."
Feitelijke en veranderende gegevens kunnen in het externe geheugen bewaard blijven via RAG, terwijl langdurige, gedragsbepalende kennis beter geschikt is voor gewichtsniveau-updates via SEAL.
"Dit soort hybride geheugenstrategie zorgt ervoor dat de juiste informatie behouden blijft, zonder dat het model overbelast raakt of er onnodig vergeten wordt", aldus hij.
Het is ook belangrijk om te weten dat SEAL een niet-triviale hoeveelheid tijd nodig heeft om de zelfbewerkte voorbeelden te verfijnen en het model te trainen. Dit maakt continue, realtime bewerking in de meeste productieomgevingen onhaalbaar.
"We zien een praktischer implementatiemodel voor ons, waarbij het systeem gegevens verzamelt over een bepaalde periode – bijvoorbeeld een paar uur of een dag – en vervolgens gerichte zelfbewerkingen uitvoert tijdens geplande update-intervallen", aldus Pari. "Deze aanpak stelt bedrijven in staat de kosten van de aanpassing te beheersen en tegelijkertijd te profiteren van het vermogen van SEAL om nieuwe kennis te internaliseren."
Wil je indruk maken op je baas? VB Daily helpt je op weg. We geven je inzicht in wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.
Lees ons privacybeleid
Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat