Es ist Qwens Sommer: Die neue Open-Source-Software Qwen3-235B-A22B-Thinking-2507 übertrifft die Argumentationsmodelle von OpenAI und Gemini bei wichtigen Benchmarks

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie nur das Wichtigste für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen. Jetzt abonnieren
Gäbe es in der KI-Branche ein Äquivalent zum „Sommersong“ der Musikindustrie – einem Hit, der hier in der nördlichen Hemisphäre in den wärmeren Monaten beliebt ist und überall gespielt wird –, dann würde der eindeutige Preisträger dieses Titels an Alibabas Qwen Team gehen.
Allein in der vergangenen Woche hat die Forschungsabteilung für bahnbrechende KI-Modelle des chinesischen E-Commerce-Riesen nicht ein , nicht zwei , nicht drei , sondern vier (!!) neue Open-Source-Modelle für generative KI veröffentlicht, die rekordverdächtige Benchmarks bieten und sogar einige führende proprietäre Optionen übertreffen.
Gestern Abend krönte das Qwen-Team den Erfolg mit der Veröffentlichung von Qwen3-235B-A22B-Thinking-2507 , seinem aktualisierten Large Language Model (LLM) zum logischen Denken, das länger zum Reagieren braucht als ein nicht logischer oder „anweisender“ LLM und sich auf „Gedankenketten“ bzw. Selbstreflexion und Selbstprüfung einlässt, was hoffentlich zu korrekteren und umfassenderen Antworten bei schwierigeren Aufgaben führt.
Tatsächlich liegt der neue Qwen3-Thinking-2507, wie wir ihn kurz nennen, bei mehreren wichtigen Benchmarks jetzt vor den leistungsstärksten Modellen oder ist ihnen dicht auf den Fersen.
Die AI Impact Series kehrt am 5. August nach San Francisco zurück
Die nächste Phase der KI ist da – sind Sie bereit? Erfahren Sie von Führungskräften von Block, GSK und SAP, wie autonome Agenten Unternehmensabläufe neu gestalten – von Echtzeit-Entscheidungen bis hin zur End-to-End-Automatisierung.
Sichern Sie sich jetzt Ihren Platz – die Plätze sind begrenzt: https://bit.ly/3GuuPLF
Wie der KI-Influencer und Nachrichtenaggregator Andrew Curran auf X schrieb: „Qwens stärkstes Argumentationsmodell ist da und es befindet sich an der Grenze.“

Im AIME25 -Benchmark, der zur Bewertung der Problemlösungsfähigkeit in mathematischen und logischen Kontexten entwickelt wurde, führt Qwen3-Thinking-2507 alle gemeldeten Modelle mit einer Punktzahl von 92,3 an und übertrifft damit sowohl OpenAIs o4-mini ( 92,7 ) als auch Gemini-2.5 Pro ( 88,0 ) knapp.
Das Modell zeigt auch eine beeindruckende Leistung bei LiveCodeBench v6 und erreicht einen Wert von 74,1, vor Google Gemini-2.5 Pro (72,5), OpenAI o4-mini (71,8) und übertrifft die frühere Version, die einen Wert von 55,7 erreichte, deutlich.
In GPQA , einem Benchmark für Multiple-Choice-Fragen auf Hochschulniveau, erreicht das Modell 81,1 und erreicht damit fast die Punktzahl von Deepseek-R1-0528 ( 81,0 ), bleibt aber hinter der Bestnote von Gemini-2.5 Pro von 86,4 zurück.
Bei Arena-Hard v2 , bei dem Ausrichtung und subjektive Vorlieben anhand der Gewinnraten bewertet werden, erreicht Qwen3-Thinking-2507 79,7 Punkte und liegt damit vor allen Mitbewerbern.
Die Ergebnisse zeigen, dass dieses Modell seinen Vorgänger nicht nur in allen wichtigen Kategorien übertrifft, sondern auch einen neuen Standard für die Leistungsfähigkeit von Open-Source-Modellen mit Fokus auf logischem Denken setzt.
Die Veröffentlichung von Qwen3-Thinking-2507 spiegelt einen umfassenderen strategischen Wandel des Qwen-Teams von Alibaba wider: die Abkehr von hybriden Denkmodellen, bei denen Benutzer manuell zwischen den Modi „Denken“ und „Nicht-Denken“ umschalten mussten.
Stattdessen trainiert das Team nun separate Modelle für Denk- und Instruktionsaufgaben. Diese Trennung ermöglicht es, jedes Modell für seinen jeweiligen Zweck zu optimieren – was zu verbesserter Konsistenz, Klarheit und Benchmark-Leistung führt. Das neue Qwen3-Thinking-Modell verkörpert diese Designphilosophie voll und ganz.
Parallel dazu hat Qwen Qwen3-Coder-480B-A35B-Instruct eingeführt , ein 480B-Parameter-Modell für komplexe Codierungsabläufe. Es unterstützt 1 Million Token-Kontextfenster und übertrifft GPT-4.1 und Gemini 2.5 Pro bei SWE-Bench Verified.
Ebenfalls angekündigt wurde Qwen3-MT , ein mehrsprachiges Übersetzungsmodell, das mit Billionen von Token in über 92 Sprachen trainiert wurde. Es unterstützt Domänenanpassung, Terminologiekontrolle und Inferenz ab nur 0,50 US-Dollar pro Million Token.
Anfang der Woche veröffentlichte das Team Qwen3-235B-A22B-Instruct-2507 , ein nicht-logisch arbeitendes Modell, das Claude Opus 4 bei mehreren Benchmarks übertraf und eine leichtgewichtige FP8-Variante für effizientere Inferenz auf eingeschränkter Hardware einführte.
Alle Modelle sind unter Apache 2.0 lizenziert und über Hugging Face, ModelScope und die Qwen-API verfügbar.
Qwen3-235B-A22B-Thinking-2507 wird unter der Apache 2.0-Lizenz veröffentlicht, einer äußerst freizügigen und kommerziell freundlichen Lizenz, die es Unternehmen ermöglicht, das Modell ohne Einschränkungen herunterzuladen, zu ändern, selbst zu hosten, zu optimieren und in proprietäre Systeme zu integrieren.
Dies steht im Gegensatz zu proprietären Modellen oder offenen Releases, die nur für Forschungszwecke bestimmt sind und häufig API-Zugriff erfordern, Nutzungsbeschränkungen auferlegen oder eine kommerzielle Nutzung verbieten. Compliance-bewussten Organisationen und Teams, die Kosten, Latenz und Datenschutz kontrollieren möchten, bietet die Apache 2.0-Lizenzierung volle Flexibilität und volle Kontrolle.
Qwen3-235B-A22B-Thinking-2507 steht jetzt zum kostenlosen Download auf Hugging Face und ModelScope bereit.
Für Unternehmen, die die Modellinferenz nicht auf ihrer eigenen Hardware oder in einer virtuellen privaten Cloud über die API, vLLM und SGLang von Alibaba Cloud hosten möchten oder nicht über die Ressourcen und Möglichkeiten verfügen.
- Eingabepreis: 0,70 $ pro Million Token
- Ausgabepreis: 8,40 $ pro Million Token
- Kostenlose Stufe: 1 Million Token, gültig für 180 Tage
Das Modell ist über Qwen-Agent mit Agenten-Frameworks kompatibel und unterstützt die erweiterte Bereitstellung über OpenAI-kompatible APIs.
Es kann auch lokal mithilfe von Transformer-Frameworks ausgeführt oder über Node.js, CLI-Tools oder strukturierte Eingabeaufforderungsschnittstellen in Entwicklungs-Stacks integriert werden.
Zu den Sampling-Einstellungen für optimale Leistung gehören temperature=0.6 , top_p=0.95 und eine maximale Ausgabelänge von 81.920 Token für komplexe Aufgaben.
Mit seiner starken Benchmark-Leistung, der Fähigkeit, lange Kontexte zu verarbeiten, und der freizügigen Lizenzierung eignet sich Qwen3-Thinking-2507 besonders gut für den Einsatz in KI-Systemen für Unternehmen, die logisches Denken, Planung und Entscheidungsunterstützung beinhalten.
Das umfassendere Qwen3-Ökosystem – einschließlich Codierungs-, Unterrichts- und Übersetzungsmodellen – macht es noch attraktiver für technische Teams und Geschäftseinheiten, die KI in vertikale Bereiche wie Entwicklung, Lokalisierung, Kundensupport und Forschung integrieren möchten.
Die Entscheidung des Qwen-Teams, spezialisierte Modelle für bestimmte Anwendungsfälle zu veröffentlichen, unterstützt durch technische Transparenz und Community-Support, signalisiert eine bewusste Verlagerung hin zum Aufbau einer offenen, leistungsfähigen und produktionsreifen KI-Infrastruktur .
Da immer mehr Unternehmen nach Alternativen zu API-gesteuerten Blackbox-Modellen suchen, positioniert sich Alibabas Qwen-Reihe zunehmend als praktikable Open-Source-Grundlage für intelligente Systeme – sie bietet sowohl Kontrolle als auch Leistungsfähigkeit im großen Maßstab.
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat