To lato Qwena: nowy, otwarty kod źródłowy Qwen3-235B-A22B-Thinking-2507 przewyższa modele wnioskowania OpenAI i Gemini w kluczowych testach porównawczych

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Gdyby branża sztucznej inteligencji miała odpowiednik „piosenki lata” branży muzycznej — przeboju, który zyskuje popularność w cieplejszych miesiącach na półkuli północnej i jest słyszany wszędzie — to zdecydowanym faworytem do tego tytułu byłby zespół Qwen z Alibaby.
Tylko w ciągu ostatniego tygodnia dział badań nad modelami sztucznej inteligencji chińskiego giganta e-commerce opublikował nie jeden , nie dwa , nie trzy , ale aż cztery (!!) nowe, generatywne modele sztucznej inteligencji o otwartym kodzie źródłowym, które oferują rekordowo wysokie wyniki, przewyższając nawet niektóre wiodące zastrzeżone opcje.
Wczoraj wieczorem zespół Qwen zakończył pracę, udostępniając Qwen3-235B-A22B-Thinking-2507 , czyli zaktualizowany model języka rozumowania (LLM), który potrzebuje więcej czasu na odpowiedź niż nierozumowy lub „instrukcyjny” model LLM, angażując „łańcuchy myśli” lub autorefleksję i samokontrolę, co — mamy nadzieję — skutkuje bardziej poprawnymi i kompleksowymi odpowiedziami na trudniejsze zadania.
Rzeczywiście, nowy Qwen3-Thinking-2507, jak będziemy go w skrócie nazywać, jest obecnie na prowadzeniu lub niewiele ustępuje najlepszym modelom w kilku najważniejszych testach porównawczych.
Seria AI Impact powraca do San Francisco – 5 sierpnia
Nadchodzi kolejny etap sztucznej inteligencji – czy jesteś gotowy? Dołącz do liderów z Block, GSK i SAP, aby zobaczyć na wyłączność, jak autonomiczni agenci zmieniają przepływy pracy w przedsiębiorstwach – od podejmowania decyzji w czasie rzeczywistym po kompleksową automatyzację.
Zarezerwuj sobie miejsce już teraz – liczba miejsc ograniczona: https://bit.ly/3GuuPLF
Jak napisał na łamach X Andrew Curran, influencer zajmujący się sztuczną inteligencją i agregator wiadomości: „Najsilniejszy model rozumowania Qwena już powstał i jest na granicy możliwości”.

W teście porównawczym AIME25 — mającym na celu ocenę zdolności rozwiązywania problemów w kontekstach matematycznych i logicznych — Qwen3-Thinking-2507 prowadzi wśród wszystkich zgłoszonych modeli z wynikiem 92,3 , nieznacznie przewyższając zarówno o4-mini ( 92,7 ) firmy OpenAI, jak i Gemini-2.5 Pro ( 88,0 ).
Model ten osiągnął również znakomitą wydajność w teście LiveCodeBench v6 , uzyskując wynik 74,1, wyprzedzając Google Gemini-2.5 Pro (72,5), OpenAI o4-mini (71,8) i znacznie przewyższając swoją wcześniejszą wersję, która osiągnęła wynik 55,7 .
W teście GPQA , który jest punktem odniesienia dla pytań wielokrotnego wyboru na poziomie studiów podyplomowych, model osiągnął wynik 81,1 , co jest wynikiem niemal równym wynikowi Deepseek-R1-0528 ( 81,0 ) i gorszym od najwyższego wyniku Gemini-2.5 Pro wynoszącego 86,4 .
W teście Arena-Hard v2 , który ocenia nastawienie i subiektywne preferencje na podstawie wskaźników wygranych, Qwen3-Thinking-2507 uzyskał wynik 79,7 , co plasuje go przed wszystkimi konkurentami.
Wyniki pokazują, że model ten nie tylko przewyższa swojego poprzednika w każdej głównej kategorii, ale także wyznacza nowy standard tego, co mogą osiągnąć modele oparte na otwartym kodzie źródłowym i oparte na rozumowaniu.
Wydanie Qwen3-Thinking-2507 odzwierciedla szerszą zmianę strategiczną zespołu Qwen firmy Alibaba: odejście od hybrydowych modeli rozumowania, które wymagały od użytkowników ręcznego przełączania się między trybami „myślenia” i „niemyślenia”.
Zamiast tego zespół trenuje teraz oddzielne modele do zadań rozumowania i instrukcji. To rozdzielenie pozwala na optymalizację każdego modelu pod kątem jego przeznaczenia, co przekłada się na lepszą spójność, przejrzystość i wydajność w testach porównawczych. Nowy model Qwen3-Thinking w pełni odzwierciedla tę filozofię projektowania.
Równocześnie Qwen wprowadził na rynek Qwen3-Coder-480B-A35B-Instruct , model 480B-parametrowy stworzony do złożonych przepływów pracy związanych z kodowaniem. Obsługuje on 1 milion okien kontekstowych tokenów i przewyższa GPT-4.1 i Gemini 2.5 Pro w testach SWE-bench Verified.
Zapowiedziano również Qwen3-MT , wielojęzyczny model tłumaczeniowy wytrenowany na bilionach tokenów w ponad 92 językach. Obsługuje on adaptację domeny, kontrolę terminologii i wnioskowanie już od 0,50 USD za milion tokenów.
Na początku tygodnia zespół wydał Qwen3-235B-A22B-Instruct-2507 , model bezrozumowy, który w kilku testach porównawczych przewyższył Claude Opus 4, a także wprowadził lekką odmianę FP8 umożliwiającą wydajniejsze wnioskowanie na ograniczonym sprzęcie.
Wszystkie modele są licencjonowane na podstawie Apache 2.0 i dostępne za pośrednictwem Hugging Face, ModelScope i API Qwen.
Model Qwen3-235B-A22B-Thinking-2507 został wydany na podstawie licencji Apache 2.0 , która jest niezwykle liberalna i przyjazna komercyjnie, umożliwiając przedsiębiorstwom pobieranie, modyfikowanie, samodzielne hostowanie, dostrajanie i integrowanie tego modelu z zastrzeżonymi systemami bez żadnych ograniczeń.
Stanowi to kontrast z modelami zastrzeżonymi lub otwartymi wersjami przeznaczonymi wyłącznie do celów badawczych, które często wymagają dostępu do API, nakładają limity użytkowania lub uniemożliwiają komercyjne wdrożenie. Dla organizacji i zespołów dbających o zgodność z przepisami, które chcą kontrolować koszty, opóźnienia i prywatność danych, licencjonowanie Apache 2.0 zapewnia pełną elastyczność i poczucie własności.
Qwen3-235B-A22B-Thinking-2507 jest już dostępny do bezpłatnego pobrania na Hugging Face i ModelScope .
Dla przedsiębiorstw, które nie chcą lub nie mają zasobów i możliwości, aby hostować wnioskowanie modelu na własnym sprzęcie lub wirtualnej chmurze prywatnej za pośrednictwem interfejsu API Alibaba Cloud, vLLM i SGLang.
- Cena wejściowa: 0,70 USD za milion tokenów
- Cena wyjściowa: 8,40 USD za milion tokenów
- Bezpłatny poziom: 1 milion tokenów, ważny przez 180 dni
Model jest zgodny z frameworkami agentowymi za pośrednictwem Qwen-Agent i obsługuje zaawansowane wdrażanie za pośrednictwem interfejsów API zgodnych ze standardem OpenAI.
Można go również uruchomić lokalnie, korzystając z frameworków Transformer lub zintegrować ze stosami programistycznymi za pomocą Node.js, narzędzi CLI lub strukturalnych interfejsów monitujących.
Ustawienia próbkowania zapewniające najlepszą wydajność obejmują temperaturę = 0,6 , top_p = 0,95 i maksymalną długość wyjściową równą 81 920 tokenów w przypadku złożonych zadań.
Dzięki doskonałym wynikom w testach porównawczych, obsłudze długiego kontekstu i liberalnemu licencjonowaniu Qwen3-Thinking-2507 szczególnie dobrze nadaje się do stosowania w korporacyjnych systemach sztucznej inteligencji obejmujących wnioskowanie, planowanie i wspomaganie decyzji.
Szerszy ekosystem Qwen3 — obejmujący modele kodowania, instrukcji i tłumaczeń — zwiększa atrakcyjność rozwiązania dla zespołów technicznych i jednostek biznesowych, które chcą wdrożyć sztuczną inteligencję w pionach takich jak inżynieria, lokalizacja, obsługa klienta i badania.
Decyzja zespołu Qwen o udostępnieniu specjalistycznych modeli dla różnych przypadków użycia, poparta przejrzystością techniczną i wsparciem społeczności, świadczy o świadomym przejściu na budowę otwartej, wydajnej i gotowej do produkcji infrastruktury AI .
Ponieważ coraz więcej przedsiębiorstw poszukuje alternatyw dla modeli typu black box, opartych na interfejsie API, seria Qwen firmy Alibaba coraz częściej pozycjonuje się jako realna podstawa typu open source dla inteligentnych systemów — oferująca zarówno kontrolę, jak i możliwości na dużą skalę.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat