Mistral, açık kaynaklı Small modelini 3.1'den 3.2'ye güncelledi: İşte nedeni

Yaklaşık yirmi yıldır kurumsal liderlerin güvendiği etkinliğe katılın. VB Transform, gerçek kurumsal AI stratejisi oluşturan insanları bir araya getiriyor. Daha fazla bilgi edinin
Fransız yapay zeka firması Mistral, bu yaz da yeni oyunlarını yayınlamaya devam ediyor.
İyi finanse edilen şirket, kendi yerli yapay zeka destekli bulut hizmeti Mistral Compute'u duyurduktan sadece birkaç gün sonra, 24B parametreli açık kaynaklı modeli Mistral Small'a bir güncelleme yayınladı ve 3.1 sürümünden 3.2-24B Instruct-2506'ya geçti.
Yeni sürüm doğrudan Mistral Small 3.1'e dayanarak, talimat izleme, çıktı kararlılığı ve fonksiyon çağırma sağlamlığı gibi belirli davranışları iyileştirmeyi amaçlamaktadır. Genel mimari ayrıntılar değişmeden kalırken, güncelleme hem dahili değerlendirmeleri hem de genel kıyaslamaları etkileyen hedefli iyileştirmeler sunmaktadır.
Mistral AI'ya göre Small 3.2, kesin talimatlara uymada daha iyi ve sonsuz veya tekrarlayan üretim olasılığını azaltıyor; bu, uzun veya belirsiz komut istemleriyle başa çıkarken önceki sürümlerde zaman zaman görülen bir sorundu.
Benzer şekilde, fonksiyon çağırma şablonu, özellikle vLLM gibi çerçevelerde daha güvenilir araç kullanım senaryolarını destekleyecek şekilde yükseltildi.
Aynı zamanda, tek bir Nvidia A100/H100 80GB GPU'lu bir kurulumda çalışabilir ve bu da kısıtlı bilgi işlem kaynaklarına ve/veya bütçelere sahip işletmeler için seçenekleri önemli ölçüde açabilir.
Mistral Small 3.1, Mart 2025'te 24B parametre aralığında amiral gemisi açık sürüm olarak duyuruldu . Tam çok modlu yetenekler, çok dilli anlayış ve 128K token'a kadar uzun bağlamlı işleme sundu.
Model, GPT-4o Mini, Claude 3.5 Haiku ve Gemma 3-it gibi tescilli emsallerine karşı açıkça konumlandırılmıştı ve Mistral'e göre birçok görevde onları geride bıraktı.
Small 3.1 ayrıca saniyede 150 token hızında çıkarım çalıştırma ve 32 GB RAM ile cihaz üzerinde kullanım desteği iddialarıyla verimli dağıtımın da altını çizdi.
Bu sürüm, hukuk, tıp ve teknik alanlar gibi alanlarda ince ayar yapma esnekliği sunan hem temel hem de talimat kontrol noktalarıyla birlikte geldi.
Buna karşılık, Small 3.2 davranış ve güvenilirlikte cerrahi iyileştirmelere odaklanır. Yeni yetenekler veya mimari değişiklikleri sunmayı amaçlamaz. Bunun yerine, bir bakım sürümü olarak hareket eder: çıktı üretiminde uç durumları temizler, talimat uyumluluğunu sıkılaştırır ve sistem istemi etkileşimlerini iyileştirir.
Talimat izleme kıyaslamaları küçük ama ölçülebilir bir iyileşme gösteriyor. Mistral'in iç doğruluğu Küçük 3.1'de %82,75'ten Küçük 3.2'de %84,78'e yükseldi.

Benzer şekilde, Wildbench v2 ve Arena Hard v2 gibi harici veri kümelerindeki performans da önemli ölçüde iyileşti; Wildbench'te neredeyse yüzde 10'luk bir artış görülürken, Arena Hard'da ise iki kattan fazla artış görüldü ve yüzde 19,56'dan yüzde 43,10'a çıktı.
Dahili ölçümler ayrıca çıktı tekrarının azaldığını gösteriyor. Sonsuz nesillerin oranı Small 3.1'de %2,11'den Small 3.2'de %1,29'a düştü - neredeyse 2 kat azalma. Bu, tutarlı, sınırlı yanıtlar gerektiren uygulamalar oluşturan geliştiriciler için modeli daha güvenilir hale getiriyor.
Metin ve kodlama kıyaslamalarındaki performans daha ayrıntılı bir resim sunar. Small 3.2, HumanEval Plus'ta (%88,99'dan %92,90'a), MBPP Pass@5'te (%74,63'ten %78,33'e) ve SimpleQA'da kazanımlar gösterdi. Ayrıca MMLU Pro ve MATH sonuçlarını da mütevazı bir şekilde iyileştirdi.

Görme ölçütleri çoğunlukla tutarlı kalırken, hafif dalgalanmalar yaşandı. ChartQA ve DocVQA marjinal kazanımlar elde ederken, AI2D ve Mathvista yüzde ikiden daha az düşüş yaşadı. Ortalama görme performansı Küçük 3.1'de %81,39'dan Küçük 3.2'de %81,00'a hafifçe düştü.

Bu, Mistral'in beyan edilen amacı ile örtüşmektedir: Küçük 3.2 bir model yenilemesi değil, bir iyileştirmedir. Bu nedenle, çoğu kıyaslama beklenen varyans dahilindedir ve bazı regresyonlar başka yerlerde hedeflenen iyileştirmeler için birer takas gibi görünmektedir.
Ancak, yapay zeka güç kullanıcısı ve etkileyici @chatgpt21'in X'te paylaştığı gibi: "MMLU'da daha da kötüleşti", yani alanlardaki geniş LLM performansını değerlendirmek için tasarlanmış 57 sorudan oluşan çok disiplinli bir test olan Massive Multitask Language Understanding kıyaslaması. Gerçekten de, Small 3.2, Small 3.1'in %80.62'sinin biraz altında kalarak %80.50 puan aldı.
Hem Small 3.1 hem de 3.2 Apache 2.0 lisansı altında mevcuttur ve popüler AI kod paylaşım deposu Hugging Face (kendisi de Fransa ve New York merkezli bir girişim) üzerinden erişilebilir.
Small 3.2, vLLM ve Transformers gibi çerçeveler tarafından destekleniyor ve bf16 veya fp16 hassasiyetinde çalışmak için yaklaşık 55 GB GPU RAM'e ihtiyaç duyuyor.
Uygulama oluşturmak veya sunmak isteyen geliştiriciler için model deposunda sistem istemleri ve çıkarım örnekleri sağlanmaktadır.
Mistral Small 3.1 halihazırda Google Cloud Vertex AI gibi platformlara entegre edilmiş durumda ve NVIDIA NIM ile Microsoft Azure'da dağıtımı planlanıyor. Ancak Small 3.2'nin şu an için Hugging Face üzerinden self servis erişim ve doğrudan dağıtımla sınırlı olduğu görülüyor.
Mistral Small 3.2, açık ağırlık model alanındaki rekabetçi konumu değiştirmese de Mistral AI'nın yinelemeli model iyileştirme konusundaki kararlılığını temsil ediyor.
Güvenilirlik ve görev yönetimi konusunda gözle görülür iyileştirmeler sunan Small 3.2, özellikle talimat doğruluğu ve araç kullanımı konusunda Mistral ekosistemini temel alan geliştiriciler ve işletmeler için daha temiz bir kullanıcı deneyimi sunuyor.
Fransız bir girişim tarafından yapılmış olması ve GDPR ve AB Yapay Zeka Yasası gibi AB kurallarına ve düzenlemelerine uygun olması, dünyanın o bölgesinde faaliyet gösteren işletmeler için de cazip hale getiriyor.
Yine de, kıyaslama performansında en büyük sıçramaları arayanlar için Small 3.1 bir referans noktası olmaya devam ediyor—özellikle MMLU gibi bazı durumlarda Small 3.2'nin selefinden daha iyi performans göstermediği göz önüne alındığında. Bu, kullanım durumuna bağlı olarak güncellemeyi saf bir yükseltmeden çok kararlılığa odaklı bir seçenek haline getiriyor.
Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.
Bir hata oluştu.

venturebeat