Dieser Forscher verwandelte OpenAIs offenes Gewichtsmodell gpt-oss-20b in ein nicht-logisch arbeitendes „Basismodell“ mit weniger Ausrichtung und mehr Freiheit


Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
OpenAIs neue, leistungsstarke Open-Weights -KI-Large-Language-Model-Familie (LLM) gpt-oss wurde vor weniger als zwei Wochen unter einer freizügigen Apache 2.0-Lizenz veröffentlicht – die erste Veröffentlichung eines Open-Weights-Modells des Unternehmens seit GPT-2 im Jahr 2019 –, aber Entwickler außerhalb des Unternehmens arbeiten bereits an der Überarbeitung.
Eines der auffälligsten Beispiele stammt von Jack Morris , einem Doktoranden der Cornell Tech, ehemaligen Google Brain Resident und aktuellen Forscher bei Meta, der diese Woche gpt-oss-20b-base vorstellte, seine eigene überarbeitete Version von OpenAIs kleinerem gpt-oss-20B-Modell, das das „Argumentations“-Verhalten des Modells entfernt und es auf eine vortrainierte „Basis“-Version zurückführt, die schnellere, freiere, unzensiertere und uneingeschränktere Antworten bietet.
Das Modell ist jetzt auf Hugging Face unter einer freizügigen MIT-Lizenz verfügbar, sodass es sowohl für weitere Forschungsarbeiten als auch für kommerzielle Anwendungen verwendet werden kann.
Um zu verstehen, was Morris getan hat, ist es hilfreich, den Unterschied zwischen der Veröffentlichung von OpenAI und dem zu kennen, was KI-Forscher als „Basismodell“ bezeichnen.
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
Die meisten LLMs, die von führenden KI-Laboren wie OpenAI, Anthropic, Google und sogar Open-Source-Anbietern wie Meta, DeepSeek und Alibabas Qwen-Team angeboten werden, sind „nachtrainiert“.
Dies bedeutet, dass sie eine zusätzliche Phase durchlaufen haben, in der sie kuratierten Beispielen des gewünschten Verhaltens ausgesetzt sind.
Bei auf Anweisungen abgestimmten Modellen bedeutet dies, dass man ihnen viele Beispiele für Anweisungen zusammen mit idealen Antworten gibt, damit sie lernen, hilfreicher, höflicher oder sicherer auf Anfragen in natürlicher Sprache zu reagieren.
Die am 5. August von OpenAI veröffentlichten gpt-oss-Modelle waren „schlussfolgerungsoptimiert“: Sie wurden trainiert und feinabgestimmt, um nicht nur das nächste Wort vorherzusagen, sondern auch Anweisungen auf sichere und konsistente Weise zu befolgen, wobei sie Probleme oft mit strukturierten „Gedankenketten“-Schlussfolgerungen durchgingen, bevor sie eine endgültige Antwort lieferten.
Dieser Trend geht auf das vor fast einem Jahr im September 2024 veröffentlichte o1-Modell von OpenAI zurück , das inzwischen aber von zahlreichen führenden KI-Laboren übernommen wurde. Dadurch werden die Modelle gezwungen, länger über mehrere Schritte nachzudenken und ihre eigene Arbeit zu überprüfen, bevor sie dem Benutzer eine gut begründete Antwort ausgeben.
Dadurch sind sie besser für Aufgaben wie das Programmieren, das Lösen mathematischer Probleme oder das Beantworten sachlicher Fragen mit Erklärungen geeignet – was aber auch bedeutet, dass ihre Antworten gefiltert und von unsicheren oder unerwünschten Inhalten ferngehalten werden.
Ein Basismodell ist anders. Es ist die rohe, vortrainierte Version eines großen Sprachmodells, bevor die argumentationsspezifische Ausrichtung angewendet wird. Basismodelle versuchen einfach, den nächsten Textabschnitt auf der Grundlage des vorherigen vorherzusagen, ohne eingebaute Leitplanken, stilistische Vorlieben oder Ablehnungsverhalten.
Sie werden von einigen Forschern geschätzt, weil sie vielfältigere und weniger eingeschränkte Ergebnisse liefern können und weil die Untersuchung ihres unkoordinierten Verhaltens Aufschluss darüber geben kann, wie Modelle Wissen und Muster aus ihren Trainingsdaten speichern.
Morris‘ Ziel war es, den Ausrichtungsprozess von OpenAI „umzukehren“ und den kleineren gpt-oss-20B in einen Zustand zurückzusetzen, der seinem ursprünglichen vortrainierten Zustand viel näher kommt.
„Wir haben den Ausrichtungsteil des LLM-Trainings im Grunde umgekehrt, sodass wir wieder natürlich aussehenden Text produzieren“, schrieb er in einem X-Thread, in dem er das Projekt ankündigte . „Es wird nicht mehr an CoT beteiligt. Es ist wieder ein Modell, das nur das nächste Token für generischen Text vorhersagt.“
OpenAI hat seit GPT-2 im Jahr 2019 kein Basismodell mehr als Open Source bereitgestellt. Vor Kurzem haben sie GPT-OSS veröffentlicht, das nur auf Schlussfolgerungen basiert … oder etwa doch nicht? Es stellte sich heraus, dass unter der Oberfläche noch immer ein starkes Basismodell vorhanden ist. Also haben wir es extrahiert.
Einführung von gpt-oss-20b-base? pic.twitter.com/3xryQgLF8Z
Anstatt zu versuchen, das Modell mit cleveren Eingabeaufforderungen zu jailbreaken – was sich laut Morris bei seinen frühen Experimenten als wirkungslos erwiesen hatte –, schlug er nach einem Gespräch mit dem ehemaligen OpenAI-Mitbegründer , ehemaligen Anthropologen und derzeitigen Chefwissenschaftler von Thinking Machines, John Schulman, einen anderen Weg ein.
Der Schlüssel lag darin, die Umkehrung der Ausrichtung als kleines Optimierungsproblem zu betrachten: Wenn der Großteil des vorab trainierten Wissens des Modells noch in seinen Gewichten vorhanden ist, ist möglicherweise nur eine winzige Aktualisierung mit niedrigem Rang erforderlich, um es wieder in Richtung des Basismodellverhaltens zu bewegen.
Morris setzte diese Idee um, indem er ein LoRA-Update (Low-Rank-Adapter) auf nur drei Schichten des Modells anwendete – die MLP-Schichten an den Positionen 7, 15 und 23 – mit einem Rang von 16.
Das bedeutete, dass etwa 60 Millionen Parameter trainiert werden mussten, also 0,3 % der insgesamt 21 Milliarden Parameter des Modells. Er verwendete rund 20.000 Dokumente aus dem FineWeb-Datensatz und behielt das Format so nah wie möglich am ursprünglichen Vortrainingsformat bei („ ….“-Stil), damit das Modell nichts Neues lernt, sondern lediglich die Generierung von Freitext wieder aktiviert.
Das Training dauerte vier Tage auf acht NVIDIA H200-GPUs, teilte Morris VentureBeat per Direktnachricht auf X mit, mit einer Lernrate von 2e-6, einer Batchgröße von 16 und einer maximalen Sequenzlänge von 8.192 Token.
Anschließend fügte er die LoRA-Gewichte wieder in das Modell ein, sodass Benutzer es als eigenständiges, vollständig feinabgestimmtes Artefakt ausführen konnten.
Morris musste sich auch mit den Einschränkungen aktueller offener Tools zur Feinabstimmung von Mixture-of-Experts-Architekturen (MoE) wie gpt-oss auseinandersetzen.
Morris sagte, er habe das Framework von Hugging Face verwendet, das seiner Aussage nach häufig abstürzt und nur bestimmte Trainingsmodi unterstützt. Außerdem habe er sein eigenes Framework geschrieben, um häufig Checkpoints zu setzen und Datenstapel zu überspringen, die den GPU-Speicher überlasten könnten.
Wichtig ist, dass Morris in Reaktion auf Fragen und Kritik aus der KI-Community zu X auch klargestellt hat, dass er nicht behauptet, die „Gewichte“ des Basismodells wiederhergestellt zu haben – die internen Einstellungen der künstlichen Neuronen, die das neuronale Netzwerk des Modells bilden und sein Verhalten steuern.
Die Welt der KI ist im Moment verrückt, weil Sie einfach behaupten können, das Basismodell aus GPT-OSS extrahiert zu haben, während Sie tatsächlich nur eine Lora auf Fineweb trainiert haben, lol https://t.co/oAnAWpMQ26
– Niels Rogge (@NielsRogge) 15. August 2025
Morris sagt vielmehr, dass seine Arbeit „die *Verteilung* des Basismodells mit einigen Fehlern wiederhergestellt“ habe, also die Wahrscheinlichkeitsmuster, die das Modell zur Generierung von Ausgaben verwendet – auch wenn die Gewichtungen, die diese Muster erzeugen, unterschiedlich sein können.
Einige Leute sind verwirrt über das Experiment – wir haben die *Gewichte* des Basismodells nicht wiederhergestellt. Das ist möglicherweise nicht einmal möglich. Wir haben die *Verteilung* des Basismodells mit einigen Fehlern wiederhergestellt. Eine wichtige Frage ist, um wie viel.
versuche das gerade herauszufinden… https://t.co/lfUG5QY4h0
– Jack Morris (@jxmnop) , 15. August 2025
Die resultierende gpt-oss-20b-base ist in ihren Ausgaben deutlich freier. Sie erklärt die Argumentation nicht mehr standardmäßig Schritt für Schritt und erzeugt ein breiteres Spektrum an Antworten, darunter auch Anweisungen, die das auf OpenAI abgestimmte Modell nicht geben würde – wie etwa den Bau einer Waffe, die Auflistung von Schimpfwörtern oder die Planung illegaler Aktivitäten.
In kurzen Tests stellte Morris fest, dass es auch wörtliche Passagen aus urheberrechtlich geschützten Werken wiedergeben konnte , darunter drei von sechs Buchauszügen, die er ausprobierte, was zeigt, dass einige auswendig gelernte Materialien noch zugänglich sind.
Dennoch bleiben einige Spuren der Angleichung bestehen. Morris bemerkte, dass sich das Modell manchmal immer noch wie ein höflicher Chatbot verhält, wenn man es in einem Assistentenformat („Mensch: … Assistent: …“) anspricht. Und wenn es über die ursprüngliche gpt-oss-Chatvorlage ausgeführt wird, kann es immer noch Denkaufgaben ausführen , wenn auch mit etwas Qualitätsverlust.
Um im Freitextmodus die besten Ergebnisse zu erzielen, empfiehlt er, den Eingabeaufforderungen das spezielle Sequenzanfangstoken <|startoftext|> des Modells voranzustellen und Chat-Vorlagen vollständig zu vermeiden.
Die gpt-oss-Familie sorgte bei ihrem Debüt für viel Aufsehen. Die beiden Modelle – gpt-oss-120B und gpt-oss-20B – sind rein textbasiert, mehrsprachig und basieren auf einer Transformer-Architektur mit verschiedenen Experten. Sie wurden unter der freizügigen Apache 2.0-Lizenz veröffentlicht, die uneingeschränkte lokale Nutzung, Feinabstimmung und kommerziellen Einsatz ermöglicht.
Leistungsbenchmarks von OpenAI zeigten, dass das größere 120B-Modell bei Reasoning- und Tool-Use-Aufgaben dem proprietären o4-mini ebenbürtig oder sogar überlegen war, während das kleinere 20B mit o3-mini konkurrieren konnte.
Dies war OpenAIs erste Open-Weight-Version seit sechs Jahren, ein Schritt, der weithin als Reaktion auf den Wettbewerbsdruck anderer Open-Weight-Anbieter, darunter DeepSeek R1 und Qwen 3 aus China, interpretiert wird.
Das Unternehmen positionierte gpt-oss sowohl als Möglichkeit, Entwickler, die zu konkurrierenden Open-Source-Modellen gewechselt waren, wieder einzubinden, als auch als Plattform für die Sicherheitsforschung zu Open-Source-Systemen.
Die Reaktionen der Entwickler auf die GPT-OSS-Modelle von OpenAI waren äußerst gemischt , die Reaktionen reichten durch die Bank von enthusiastisch bis enttäuscht.
Die Befürworter lobten die großzügige Lizenz, die Effizienz und das starke Abschneiden bei MINT-Benchmarks.
Clem Delangue, CEO von Hugging Face, bezeichnete die Veröffentlichung als „sinnvolle Ergänzung des offenen Ökosystems“ und forderte die Community auf, ihr Zeit zum Reifen zu geben.
Kritiker argumentierten, dass die Modelle offenbar stark auf synthetischen Daten trainiert seien, was sie zwar hervorragend in Mathematik und Programmierung mache, aber weniger fähig zum kreativen Schreiben, zu allgemeinem Weltwissen und mehrsprachigem Denken.
Einige frühe Tester äußerten auch Bedenken hinsichtlich der verbleibenden Sicherheitsfilter und einer möglichen geopolitischen Voreingenommenheit.
Vor diesem Hintergrund ist Morris‘ gpt-oss-20b-base ein konkretes Beispiel dafür, wie Open-Weight-Modelle innerhalb weniger Tage nach der Veröffentlichung angepasst und in der Praxis neu eingesetzt werden können.
Im Gegensatz zur Resonanz auf OpenAIs gpt-oss sind die meisten Reaktionen auf Morris' Arbeit, die ich gesehen habe, warmherzig und begeistert. Ein Informatiker schrieb auf X : „Das ist das Coolste, was ich in den letzten Monaten auf Twitter [X] gesehen habe.“
Mann, das ist das Coolste, was ich in den letzten Monaten auf Twitter gesehen habe. Ich liebe Basismodelle
– Ludan (@JMRLudan) 15. August 2025
Dieser Ansatz entfernt einen Großteil des in OpenAI integrierten Verhaltens und führt das Modell zu etwas zurück, das eher einem rohen, vortrainierten System ähnelt. Dies ist eine wertvolle Änderung für Forscher, die sich mit dem Auswendiglernen, Voreingenommenheit oder den Auswirkungen von Ausrichtungen befassen, birgt aber auch höhere Sicherheitsrisiken.
Darüber hinaus sagt Morris , dass er seine Arbeit an der Wiederherstellung von Schlussfolgerungsmodellen auf vortrainierte, nicht schlussfolgernde Basismodelle fortsetzen wird, indem er die Extraktion auf nicht schlussfolgernden, anweisenden Modellen vergleicht, wie sie von Qwen angeboten werden.
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat