OpenAI hat gerade seine ersten Open-Weight-Modelle seit GPT-2 veröffentlicht

OpenAI hat gerade seine ersten offenen Modelle seit über fünf Jahren veröffentlicht. Die beiden Sprachmodelle gpt-oss-120b und gpt-oss-20b können lokal auf Verbrauchergeräten ausgeführt und für bestimmte Zwecke optimiert werden. Für OpenAI stellen sie eine Abkehr von der bisherigen Strategie der proprietären Versionen dar und richten sich nun auf ein breiteres und offeneres Spektrum an KI-Modellen, die den Nutzern zur Verfügung stehen.
„Wir freuen uns, dieses Modell, das Ergebnis von Milliarden von Dollar an Forschung, der Welt zur Verfügung zu stellen, um KI möglichst vielen Menschen zugänglich zu machen“, sagte OpenAI-CEO Sam Altman in einer E-Mail-Erklärung. Sowohl gpt-oss-120b als auch gpt-oss-20b stehen offiziell zum kostenlosen Download auf Hugging Face bereit, einer beliebten Hosting-Plattform für KI-Tools . Das letzte von OpenAI veröffentlichte Open-Weight-Modell war GPT-2 aus dem Jahr 2019.
Das Besondere an einem Open-Weight-Modell ist die Tatsache, dass seine „Gewichte“ öffentlich zugänglich sind. Das bedeutet, dass jeder einen Blick auf die internen Parameter werfen und sich ein Bild von der Informationsverarbeitung machen kann. Anstatt die proprietären Modelle von OpenAI mit einer kostenlosen Option zu unterbieten, sieht Mitbegründer Greg Brockman diese Version als „Ergänzung“ zu den kostenpflichtigen Diensten des Unternehmens, wie beispielsweise der derzeit von vielen Entwicklern genutzten Anwendungsprogrammierschnittstelle. „Open-Weight-Modelle haben ganz andere Stärken“, sagte Brockman in einem Briefing mit Reportern. Im Gegensatz zu ChatGPT kann ein gpt-oss-Modell ohne Internetverbindung und hinter einer Firewall ausgeführt werden.
Beide gpt-oss-Modelle nutzen Denkketten- Ansätze, die OpenAI im vergangenen Herbst erstmals in seinem o1-Modell einsetzte . Anstatt nur eine Ausgabe zu liefern, durchlaufen generative KI-Tools bei diesem Ansatz mehrere Schritte, um auf eine Eingabe zu antworten. Diese neuen textbasierten Modelle sind nicht multimodal, können aber im Internet surfen, Cloud-basierte Modelle zur Unterstützung bei Aufgaben aufrufen, Code ausführen und als KI-Agent durch Software navigieren. Das kleinere der beiden Modelle, gpt-oss-20b, ist kompakt genug, um lokal auf einem Consumer-Gerät mit mehr als 16 GB Speicher ausgeführt zu werden.
Die beiden neuen Modelle von OpenAI sind unter der Apache 2.0-Lizenz verfügbar, einer beliebten Lizenz für Open-Weight-Modelle. Mit Apache 2.0 können Modelle kommerziell genutzt, weiterverteilt und in andere lizenzierte Software integriert werden. Open-Weight-Modellversionen von Alibabas Qwen und Mistral laufen ebenfalls unter Apache 2.0.
Die Veröffentlichung dieser offenen Modelle wurde im März öffentlich angekündigt, zunächst jedoch aufgrund weiterer Sicherheitstests verschoben. Die Veröffentlichung eines offenen Modells ist potenziell gefährlicher als die einer geschlossenen Version, da dadurch die Benutzer des Tools eingeschränkt werden und jeder versuchen kann, eine Version von gpt-oss für unbeabsichtigte Zwecke zu optimieren.
Zusätzlich zu den Evaluierungen, die OpenAI üblicherweise für seine proprietären Modelle durchführt, hat das Startup die Open-Weight-Option angepasst, um zu prüfen, wie sie von einem „bösen Akteur“, der das Tool herunterlädt, missbraucht werden könnte. „Wir haben das Modell intern in einigen dieser Risikobereiche optimiert“, sagte Eric Wallace, Sicherheitsforscher bei OpenAI, „und gemessen, wie weit wir sie treiben können.“ In den Tests von OpenAI erreichte das Open-Weight-Modell gemessen am Bereitschaftsrahmen kein hohes Risikoniveau.
Wie schneiden diese Modelle im Vergleich zu anderen OpenAI-Versionen ab? „Die Benchmark-Ergebnisse beider Modelle sind ziemlich gut“, sagte Chris Koch, ein OpenAI-Forscher, im Briefing. In Bezug auf gpt-oss-120b verglich der Forscher die Leistung mit den proprietären Modellen o3 und o4-mini von OpenAI und übertraf diese in einigen Tests sogar. Die Modellkarte für gpt-oss beschreibt detailliert, wie es im Vergleich zu den anderen Angeboten des Unternehmens abschneidet. In einer Pressekonferenz vor der Markteinführung konzentrierten sich Mitarbeiter von OpenAI auch auf die von gpt-oss gebotene Latenz und die geringeren Kosten für den Betrieb dieser Modelle.
Anfang des Jahres überraschte das chinesische Startup DeepSeek Silicon Valley mit der Veröffentlichung seines kostengünstigen Open-Weight-Modells. Obwohl DeepSeek oder andere chinesische KI-Unternehmen im Release-Blog zu gpt-oss nicht direkt erwähnt werden, betont Altman, dass er Innovationen rund um Open-Weight-Modelle in den USA sehen möchte. „Seit unserer Gründung im Jahr 2015 ist es die Mission von OpenAI, eine AGI zu gewährleisten, die der gesamten Menschheit zugutekommt“, sagte Altman in einer Erklärung. „Wir freuen uns, dass die Welt auf einem offenen KI-Stack aufbauen kann, der in den USA entwickelt wurde, auf demokratischen Werten basiert, allen kostenlos zur Verfügung steht und einen breiten Nutzen bringt.“
In den USA ist Meta der führende Anbieter im Open-Source-Bereich. Der Tech-Gigant brachte das erste Modell seiner Llama-Reihe bereits 2023 auf den Markt, Metas jüngste Version, Llama 4 , erschien vor einigen Monaten. Vor diesem Hintergrund konzentriert sich Meta derzeit voll und ganz auf die Entwicklung einer KI, die die menschliche Wahrnehmung übertreffen kann – von KI-Insidern oft als Superintelligenz bezeichnet. Das Unternehmen hat kürzlich ein neues, internes Labor eröffnet, das sich diesem Thema widmet und von Alexandr Wang, dem ehemaligen CEO von Scale, geleitet wird. Mark Zuckerberg hat angedeutet , dass das Unternehmen bei zukünftigen Modellen möglicherweise von Open Source abrücken wird, da es potenzielle Sicherheitsbedenken gibt.
Die Veröffentlichung von gpt-oss erfolgt zu einem Zeitpunkt, an dem der Kampf um KI-Talente zwischen Unternehmen wie OpenAI und Meta weiter zunimmt. Im Jahr 2025 erhalten KI-Forscher mit gefragten Talenten astronomische Angebote, um das Unternehmen zu wechseln. Die neuesten Veröffentlichungen von OpenAI könnten Meta eine starke Konkurrenz werden, je nachdem, wie die gpt-oss-Modelle von den Entwicklern aufgenommen werden.
wired