Sprache auswählen

German

Down Icon

Land auswählen

America

Down Icon

Mehr als statische KI: Das neue Framework des MIT ermöglicht es Modellen, sich selbst zu lehren

Mehr als statische KI: Das neue Framework des MIT ermöglicht es Modellen, sich selbst zu lehren

Nehmen Sie an der Veranstaltung teil, der Unternehmensführer seit fast zwei Jahrzehnten vertrauen. VB Transform bringt die Menschen zusammen, die eine echte KI-Strategie für Unternehmen entwickeln. Mehr erfahren

Forscher am MIT haben ein Framework namens Self-Adapting Language Models (SEAL) entwickelt, das es großen Sprachmodellen (LLMs) ermöglicht, kontinuierlich zu lernen und sich anzupassen, indem sie ihre eigenen internen Parameter aktualisieren. SEAL bringt einem LLM bei, eigene Trainingsdaten zu generieren und Anweisungen zu aktualisieren. Dadurch kann es permanent neues Wissen aufnehmen und neue Aufgaben erlernen.

Dieses Framework könnte für Unternehmensanwendungen nützlich sein, insbesondere für KI-Agenten, die in dynamischen Umgebungen arbeiten, in denen sie ständig neue Informationen verarbeiten und ihr Verhalten anpassen müssen.

Obwohl große Sprachmodelle bemerkenswerte Fähigkeiten gezeigt haben, bleibt ihre Anpassung an spezifische Aufgaben, die Integration neuer Informationen oder die Beherrschung neuartiger Denkfähigkeiten eine erhebliche Hürde.

Derzeit lernen LLMs bei neuen Aufgaben typischerweise aus vorhandenen Daten mithilfe von Methoden wie Feinabstimmung oder kontextbezogenem Lernen . Die bereitgestellten Daten liegen jedoch nicht immer in einem optimalen Format vor, damit das Modell effizient lernen kann. Bestehende Ansätze ermöglichen es dem Modell nicht, eigene Strategien für die optimale Transformation und das Lernen aus neuen Informationen zu entwickeln.

„Viele Anwendungsfälle in Unternehmen erfordern mehr als nur das bloße Abrufen von Fakten – sie erfordern eine tiefere, dauerhafte Anpassung“, sagte Jyo Pari, Doktorand am MIT und Co-Autor des Artikels, gegenüber VentureBeat. „Beispielsweise muss ein Programmierassistent möglicherweise das spezifische Software-Framework eines Unternehmens verinnerlichen, oder ein kundenorientiertes Modell muss möglicherweise im Laufe der Zeit das individuelle Verhalten oder die Vorlieben eines Benutzers erlernen.“

In solchen Fällen reicht eine vorübergehende Abfrage nicht aus und das Wissen muss in die Gewichte des Modells „eingebacken“ werden, sodass es alle zukünftigen Antworten beeinflusst.

„Als Schritt hin zu einer skalierbaren und effizienten Anpassung von Sprachmodellen schlagen wir vor, LLMs mit der Fähigkeit auszustatten, ihre eigenen Trainingsdaten zu generieren und die Richtlinien für die Verwendung dieser Daten zu verfeinern“, erklären die MIT-Forscher in ihrem Artikel.

Übersicht über das SEAL-Framework (Quelle: arXiv)
Übersicht über das SEAL-Framework Quelle: arXiv

Die Lösung der Forscher heißt SEAL, kurz für Self-Adapting Language Models. Es nutzt einen Reinforcement-Learning-Algorithmus (RL), um ein LLM so zu trainieren, dass es „Selbsteditierungen“ generiert – natürlichsprachliche Anweisungen, die festlegen, wie das Modell seine eigenen Gewichte aktualisieren soll. Diese Selbsteditierungen können neue Informationen umstrukturieren, synthetische Trainingsbeispiele erstellen oder sogar die technischen Parameter für den Lernprozess selbst definieren.

SEAL bringt einem Modell intuitiv bei, wie es seinen eigenen, personalisierten Studienleitfaden erstellt. Anstatt einfach ein neues Dokument (die Rohdaten) zu lesen, lernt das Modell, diese Informationen in einen Stil umzuschreiben und umzuformatieren, den es leichter aufnehmen und verinnerlichen kann. Dieser Prozess vereint mehrere Schlüsselbereiche der KI-Forschung, darunter die Generierung synthetischer Daten, bestärkendes Lernen und Test-Time-Training (TTT).

Das Framework basiert auf einem Zwei-Schleifen-System. In einer „inneren Schleife“ führt das Modell mithilfe einer Selbstkorrektur eine kleine, temporäre Aktualisierung seiner Gewichte durch. In einer „äußeren Schleife“ prüft das System, ob diese Aktualisierung die Leistung des Modells bei einer Zielaufgabe verbessert hat. Ist dies der Fall, erhält das Modell eine positive Belohnung, die seine Fähigkeit stärkt, in Zukunft eine solche effektive Selbstkorrektur durchzuführen. Mit der Zeit wird das LLM zum Experten im Selbstlernen.

In ihrer Studie verwendeten die Forscher ein einziges Modell für das gesamte SEAL-Framework. Sie weisen jedoch auch darauf hin, dass dieser Prozess in ein „Lehrer-Schüler“-Modell entkoppelt werden kann. Ein spezialisiertes Lehrermodell könnte trainiert werden, um effektive Selbstbearbeitungen für ein separates Schülermodell zu generieren, das anschließend aktualisiert würde. Dieser Ansatz könnte spezialisiertere und effizientere Anpassungspipelines in Unternehmensumgebungen ermöglichen.

Die Forscher testeten SEAL in zwei Schlüsselbereichen: Wissensintegration (die Fähigkeit, neue Fakten dauerhaft zu integrieren) und Lernen in wenigen Versuchen (die Fähigkeit, aus einer Handvoll Beispiele zu verallgemeinern).

SEAL in der Wissensintegration (Quelle: arXiv)
SEAL in der Wissensintegration Quelle: arXiv

Bei der Wissensintegration ging es darum, zu prüfen, ob das Modell Fragen zu einer Textpassage beantworten konnte, ohne während der Befragung Zugriff auf die Passage zu haben. Die Feinabstimmung von Llama-3.2-1B am Rohtext führte nur zu einer marginalen Verbesserung gegenüber dem Basismodell.

Als das SEAL-Modell jedoch „Selbstbearbeitungen“ durch die Generierung mehrerer „Implikationen“ aus einer Textstelle erstellte und mit diesen synthetischen Daten trainiert wurde, stieg seine Genauigkeit auf 47 %. Bemerkenswerterweise übertraf diese Leistung die Ergebnisse der Verwendung synthetischer Daten, die vom deutlich größeren GPT-4.1 generiert wurden. Dies deutet darauf hin, dass das Modell gelernt hat, selbst besseres Trainingsmaterial zu erstellen.

SEAL im Few-Shot-Learning (Quelle: arXiv)
SEAL im Few-Shot-Learning Quelle: arXiv

Für das Lernen mit wenigen Beispielen testeten die Forscher SEAL anhand von Beispielen aus dem Abstract Reasoning Corpus (ARC), bei denen das Modell visuelle Rätsel lösen muss. In der Selbstbearbeitungsphase musste das Modell die gesamte Anpassungsstrategie entwickeln, einschließlich der zu verwendenden Datenerweiterungen und Tools sowie der anzuwendenden Lernrate.

SEAL erreichte eine Erfolgsquote von 72,5 %, eine dramatische Verbesserung gegenüber der Erfolgsquote von 20 %, die ohne RL-Training erreicht wurde, und der Erfolgsquote von 0 % beim standardmäßigen kontextbezogenen Lernen.

SEAL (rote Linie) verbessert sich über RL-Zyklen hinweg weiter (Quelle: arXiv)
SEAL (rote Linie) verbessert sich weiterhin über RL-Zyklen hinweg. Quelle: arXiv

Einige Experten prognostizieren, dass der Vorrat an hochwertigen, menschlich generierten Trainingsdaten in den kommenden Jahren erschöpft sein könnte. Der Fortschritt könnte bald von der Fähigkeit eines Modells abhängen, sein eigenes, hochnützliches Trainingssignal zu generieren, wie die Forscher es formulieren. Sie fügen hinzu: „Ein naheliegender nächster Schritt ist das Metatraining eines dedizierten SEAL-Modells zur Generierung synthetischer Daten, das neue Vortrainingskorpora erzeugt. Dadurch können zukünftige Modelle skaliert werden und eine höhere Dateneffizienz erreichen, ohne auf zusätzlichen menschlichen Text angewiesen zu sein.“

Die Forscher schlagen beispielsweise vor, dass ein LLM komplexe Dokumente wie akademische Arbeiten oder Finanzberichte aufnehmen und autonom Tausende von Erklärungen und Schlussfolgerungen generieren könnte, um sein Verständnis zu vertiefen.

„Dieser iterative Kreislauf aus Selbstdarstellung und Selbstverfeinerung könnte es Modellen ermöglichen, sich bei seltenen oder unterrepräsentierten Themen auch ohne zusätzliche externe Aufsicht weiter zu verbessern“, erklären die Forscher.

Diese Fähigkeit ist besonders vielversprechend für die Entwicklung von KI-Agenten . Agentensysteme müssen in der Interaktion mit ihrer Umgebung schrittweise Wissen erwerben und speichern. SEAL bietet hierfür einen Mechanismus. Nach einer Interaktion könnte ein Agent eine Selbstbearbeitung synthetisieren, um eine Gewichtsaktualisierung auszulösen und so die gewonnenen Erkenntnisse zu verinnerlichen. Dadurch kann sich der Agent im Laufe der Zeit weiterentwickeln, seine Leistung erfahrungsbasiert verbessern und seine Abhängigkeit von statischer Programmierung oder wiederholter menschlicher Anleitung reduzieren.

„SEAL zeigt, dass große Sprachmodelle nach dem Vortraining nicht statisch bleiben müssen“, schreiben die Forscher. „Indem sie lernen, ihre eigenen synthetischen Selbsteditierungsdaten zu generieren und diese durch leichte Gewichtsaktualisierungen anzuwenden, können sie selbstständig neues Wissen integrieren und sich an neue Aufgaben anpassen.“

Allerdings ist SEAL keine universelle Lösung. Beispielsweise kann es unter „katastrophalem Vergessen“ leiden, d. h. ständige Trainingszyklen können dazu führen, dass das Modell sein früheres Wissen wieder lernt.

„In unserer aktuellen Implementierung fördern wir einen hybriden Ansatz“, sagte Pari. „Unternehmen sollten selektiv entscheiden, welches Wissen wichtig genug ist, um es dauerhaft zu integrieren.“

Faktische und sich entwickelnde Daten können über RAG im externen Speicher verbleiben, während sich langlebiges, verhaltensprägendes Wissen besser für Aktualisierungen auf Gewichtungsebene über SEAL eignet.

„Diese Art von hybrider Speicherstrategie stellt sicher, dass die richtigen Informationen erhalten bleiben, ohne das Modell zu überlasten oder unnötiges Vergessen zu verursachen“, sagte er.

Es ist außerdem zu beachten, dass SEAL einen nicht unerheblichen Zeitaufwand für die Optimierung der selbsteditierenden Beispiele und das Training des Modells benötigt. Dies macht eine kontinuierliche Bearbeitung in Echtzeit in den meisten Produktionsumgebungen unmöglich.

„Wir stellen uns ein praktischeres Bereitstellungsmodell vor, bei dem das System über einen bestimmten Zeitraum – beispielsweise einige Stunden oder einen Tag – Daten sammelt und anschließend in geplanten Aktualisierungsintervallen gezielte Selbstkorrekturen vornimmt“, sagte Pari. „Dieser Ansatz ermöglicht es Unternehmen, die Anpassungskosten zu kontrollieren und gleichzeitig von SEALs Fähigkeit zu profitieren, neues Wissen zu internalisieren.“

Tägliche Einblicke in Geschäftsanwendungsfälle mit VB Daily

Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.

Lesen Sie unsere Datenschutzrichtlinie

Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .

Ein Fehler ist aufgetreten.

venturebeat

venturebeat

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow