Qwen'in yazı: Yeni açık kaynaklı Qwen3-235B-A22B-Thinking-2507, önemli ölçütlerde OpenAI ve Gemini akıl yürütme modellerini geride bırakıyor

Gelen kutunuza daha akıllı içgörüler mi gelsin? Kurumsal yapay zeka, veri ve güvenlik liderleri için yalnızca önemli olan bilgileri almak için haftalık bültenlerimize kaydolun. Hemen Abone Olun
Yapay zeka endüstrisi, kayıt endüstrisinin "yaz şarkısı"na eşdeğer bir şarkıya sahip olsaydı - Kuzey Yarımküre'de sıcak aylarda popüler olan ve her yerde çalındığı duyulan bir hit şarkı - bu unvanın açık ara sahibi Alibaba'nın Qwen Ekibi olurdu.
Geçtiğimiz hafta, Çinli e-ticaret devinin sınır modeli yapay zeka araştırma bölümü, rekor kıran ölçütler sunan ve bazı önde gelen özel seçenekleri bile geride bırakan, bir , iki , üç değil, tam dört (!!) yeni açık kaynaklı üretken yapay zeka modeli yayınladı.
Dün gece, Qwen Ekibi, güncellenmiş muhakeme büyük dil modeli (LLM) olan Qwen3-235B-A22B-Thinking-2507'yi yayınlayarak işi tamamladı . Bu model, muhakeme gerektirmeyen veya "talimat veren" bir LLM'den daha uzun sürede yanıt veriyor ve "düşünce zincirleri" veya öz-yansıtma ve öz-kontrol ile daha zor görevlerde daha doğru ve kapsamlı yanıtlar elde etmeyi umuyor.
Nitekim, kısaca Qwen3-Thinking-2507 olarak adlandıracağımız yeni model, artık birçok önemli kıyaslamada en iyi performans gösteren modellerin önünde veya hemen arkasında yer alıyor.
AI Impact Serisi San Francisco'ya Geri Dönüyor - 5 Ağustos
Yapay zekanın bir sonraki aşaması burada - hazır mısınız? Block, GSK ve SAP liderleriyle bir araya gelerek, otonom ajanların gerçek zamanlı karar alma sürecinden uçtan uca otomasyona kadar kurumsal iş akışlarını nasıl yeniden şekillendirdiğine dair özel bir bakış açısı edinin.
Yerini hemen ayırt - kontenjan sınırlıdır: https://bit.ly/3GuuPLF
Yapay zeka fenomeni ve haber toplayıcısı Andrew Curran'ın X'te yazdığı gibi: "Qwen'in en güçlü akıl yürütme modeli ortaya çıktı ve sınırda."

Matematiksel ve mantıksal bağlamlarda problem çözme yeteneğini değerlendirmek üzere tasarlanan AIME25 kıyaslamasında Qwen3-Thinking-2507, 92,3 puanla bildirilen tüm modellerin önünde yer alıyor ve hem OpenAI'nin o4-mini'sini ( 92,7 ) hem de Gemini-2.5 Pro'yu ( 88,0 ) dar bir farkla geride bırakıyor.
Model ayrıca LiveCodeBench v6'da 74.1 puan alarak Google Gemini-2.5 Pro'nun (72.5) ve OpenAI o4-mini'nin (71.8) önünde ve 55.7 puan alan önceki sürümünün önemli ölçüde üzerinde performans göstererek üstün bir performans gösteriyor.
Lisansüstü düzeyde çoktan seçmeli sorular için bir ölçüt olan GPQA'da model 81.1 puan elde ederek Deepseek-R1-0528 ( 81.0 ) ile neredeyse aynı puanı alıyor ve Gemini-2.5 Pro'nun 86.4 olan en yüksek puanının gerisinde kalıyor.
Kazanma oranlarına göre hizalanma ve öznel tercihleri değerlendiren Arena-Hard v2'de Qwen3-Thinking-2507 79.7 puan alarak tüm rakiplerinin önüne geçiyor.
Sonuçlar, bu modelin öncülünü her önemli kategoride geride bırakmakla kalmayıp, aynı zamanda açık kaynaklı, akıl yürütme odaklı modellerin neler başarabileceği konusunda yeni bir standart belirlediğini gösteriyor.
Qwen3-Thinking-2507'nin yayınlanması, Alibaba'nın Qwen ekibinin daha geniş kapsamlı bir stratejik değişimini yansıtıyor: Kullanıcıların "düşünme" ve "düşünmeme" modları arasında manuel olarak geçiş yapmasını gerektiren hibrit akıl yürütme modellerinden uzaklaşılıyor.
Bunun yerine, ekip artık muhakeme ve talimat görevleri için ayrı modeller eğitiyor. Bu ayrım, her modelin amaçlanan amacına göre optimize edilmesini sağlayarak tutarlılık, netlik ve kıyaslama performansının iyileştirilmesini sağlıyor. Yeni Qwen3-Düşünme modeli, bu tasarım felsefesini tam anlamıyla yansıtıyor.
Qwen, bunun yanı sıra, karmaşık kodlama iş akışları için geliştirilmiş 480B parametreli bir model olan Qwen3-Coder-480B-A35B-Instruct'ı da piyasaya sürdü . 1 milyon belirteç bağlam penceresini destekliyor ve SWE-bench Verified'da GPT-4.1 ve Gemini 2.5 Pro'yu geride bırakıyor.
Ayrıca, 92'den fazla dilde trilyonlarca token üzerinde eğitilmiş çok dilli bir çeviri modeli olan Qwen3-MT de duyuruldu . Bu model, alan adı uyarlamasını, terminoloji kontrolünü ve milyon token başına yalnızca 0,50 ABD doları tutarındaki maliyetle çıkarımı destekliyor.
Tüm modeller Apache 2.0 lisansı altında olup Hugging Face, ModelScope ve Qwen API aracılığıyla kullanılabilir.
Qwen3-235B-A22B-Thinking-2507, işletmelerin modeli kısıtlama olmaksızın indirmelerine, değiştirmelerine, kendi kendilerine barındırmalarına, ince ayar yapmalarına ve tescilli sistemlere entegre etmelerine olanak tanıyan son derece izin verici ve ticari açıdan uygun bir lisans olan Apache 2.0 lisansı altında yayınlanmıştır.
Bu durum, genellikle API erişimi gerektiren, kullanım sınırlamaları getiren veya ticari dağıtımı yasaklayan tescilli modeller veya yalnızca araştırmaya yönelik açık sürümlerle çelişmektedir. Uyumluluk bilincine sahip kuruluşlar ve maliyet, gecikme ve veri gizliliğini kontrol altına almak isteyen ekipler için Apache 2.0 lisanslaması tam esneklik ve sahiplik sağlar.
Qwen3-235B-A22B-Thinking-2507 artık Hugging Face ve ModelScope'ta ücretsiz olarak indirilebilir.
Alibaba Cloud'un API'si, vLLM ve SGLang aracılığıyla kendi donanımlarında veya sanal özel bulutlarında model çıkarımını barındırmak istemeyen veya buna kaynak ve yeteneği olmayan işletmeler için.
- Giriş fiyatı: milyon token başına 0,70 ABD doları
- Çıkış fiyatı: milyon token başına 8,40 dolar
- Ücretsiz katman: 1 milyon token, 180 gün geçerli
Model, Qwen-Agent aracılığıyla aracı çerçevelerle uyumludur ve OpenAI uyumlu API'ler aracılığıyla gelişmiş dağıtımı destekler.
Ayrıca, dönüştürücü çerçeveler kullanılarak yerel olarak çalıştırılabilir veya Node.js, CLI araçları veya yapılandırılmış istem arayüzleri aracılığıyla dev yığınlarına entegre edilebilir.
En iyi performans için örnekleme ayarları arasında temperature=0.6 , top_p=0.95 ve karmaşık görevler için 81.920 jetonluk maksimum çıktı uzunluğu yer alır.
Güçlü kıyaslama performansı, uzun bağlam yeteneği ve izin verici lisanslamasıyla Qwen3-Thinking-2507, özellikle akıl yürütme, planlama ve karar desteği içeren kurumsal yapay zeka sistemlerinde kullanım için oldukça uygundur.
Kodlama, eğitim ve çeviri modelleri de dahil olmak üzere daha geniş Qwen3 ekosistemi, mühendislik, yerelleştirme, müşteri desteği ve araştırma gibi dikey alanlarda yapay zekayı entegre etmek isteyen teknik ekiplere ve iş birimlerine olan ilgiyi daha da artırıyor.
Qwen ekibinin, teknik şeffaflık ve topluluk desteğiyle, farklı kullanım durumları için özel modeller yayınlama kararı, açık, performanslı ve üretime hazır yapay zeka altyapısı oluşturmaya yönelik bilinçli bir geçişin sinyalini veriyor.
Daha fazla işletme API kapılı, kara kutu modellere alternatif ararken, Alibaba'nın Qwen serisi, hem büyük ölçekte kontrol hem de yetenek sunarak, akıllı sistemler için uygulanabilir bir açık kaynaklı temel olarak kendini giderek daha fazla konumlandırıyor.
Patronunuzu etkilemek istiyorsanız, VB Daily size yardımcı olabilir. Şirketlerin üretken yapay zeka ile ilgili neler yaptığına dair, mevzuat değişikliklerinden pratik uygulamalara kadar her şeyi size aktarıyoruz, böylece maksimum yatırım getirisi için fikirlerinizi paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkür ederiz. Daha fazla VB bültenine buradan ulaşabilirsiniz.
Bir hata oluştu.

venturebeat