Laboratuvarda kıyaslama yapmayı bırakın: Inclusion Arena, LLM'lerin üretimde nasıl performans gösterdiğini gösteriyor

Gelen kutunuza daha akıllı içgörüler mi gelsin? Kurumsal yapay zeka, veri ve güvenlik liderleri için yalnızca önemli olan bilgileri almak için haftalık bültenlerimize kaydolun. Hemen Abone Olun
Kıyaslama test modelleri, işletmelerin ihtiyaçlarına uygun performans türünü seçmelerine olanak tanıyarak işletmeler için vazgeçilmez hale gelmiştir. Ancak tüm kıyaslamalar aynı şekilde oluşturulmaz ve birçok test modeli statik veri kümelerine veya test ortamlarına dayanır.
Alibaba'nın Ant Group'una bağlı Inclusion AI araştırmacıları, gerçek yaşam senaryolarındaki model performansına daha fazla odaklanan yeni bir model liderlik tablosu ve kıyaslama önerdi. Hukuk alanında lisans programlarının, insanların modelleri nasıl kullandığını ve statik bilgi yeteneklerine sahip modellere kıyasla cevaplarını ne kadar tercih ettiğini hesaba katan bir liderlik tablosuna ihtiyaç duyduğunu savunuyorlar.
Araştırmacılar, bir makalede , modelleri kullanıcı tercihlerine göre sıralayan Inclusion Arena'nın temellerini ortaya koydular.
Makalede, "Bu boşlukları gidermek için, gerçek dünyadaki yapay zeka destekli uygulamaları en son teknoloji LLM ve MLLM programlarıyla birleştiren canlı bir liderlik tablosu olan Inclusion Arena'yı öneriyoruz. Kitle kaynaklı platformların aksine, sistemimiz gerçek dünyadaki uygulamalarda çok aşamalı insan-yapay zeka diyalogları sırasında rastgele model savaşları tetikliyor," denildi.
Yapay Zeka Ölçeklendirmesi Sınırlarına Ulaştı
Güç sınırlamaları, artan token maliyetleri ve çıkarım gecikmeleri, kurumsal yapay zekayı yeniden şekillendiriyor. En iyi ekiplerin nasıl çalıştığını keşfetmek için özel salonumuza katılın:
- Enerjiyi stratejik bir avantaja dönüştürmek
- Gerçek verimlilik kazanımları için verimli çıkarım mimarisi oluşturma
- Sürdürülebilir yapay zeka sistemleriyle rekabetçi yatırım getirisinin kilidini açma
Önde kalmak için yerinizi ayırtın : https://bit.ly/4mwGngO
Inclusion Arena, gerçek hayata yakınlığı ve benzersiz model sıralama yöntemiyle MMLU ve OpenLLM gibi diğer model liderlik tablolarından sıyrılıyor. Chatbot Arena'nın kullandığına benzer Bradley-Terry modelleme yöntemini kullanıyor.
Inclusion Arena, veri kümelerini toplamak ve insan değerlendirmeleri yapmak için kıyaslama ölçütünü yapay zeka uygulamalarına entegre ederek çalışır. Araştırmacılar, "başlangıçta entegre edilen yapay zeka destekli uygulama sayısının sınırlı olduğunu, ancak ekosistemi genişletmek için açık bir ittifak kurmayı hedeflediklerini" kabul ediyor.
Artık çoğu kişi, OpenAI , Google veya Anthropic gibi şirketler tarafından yayınlanan her yeni LLM'nin performansını öven liderlik tablolarına ve kıyaslamalara aşinadır. VentureBeat, xAI'nin Grok 3'ü gibi bazı modellerin Chatbot Arena liderlik tablosunda zirveye çıkarak güçlerini kanıtlamaları nedeniyle bu liderlik tablolarına yabancı değil. Inclusion AI araştırmacıları, yeni liderlik tablolarının "değerlendirmelerin pratik kullanım senaryolarını yansıtmasını sağladığını" ve böylece işletmelerin seçmeyi planladıkları modeller hakkında daha iyi bilgiye sahip olduklarını savunuyor.
Inclusion Arena, Bradley-Terry yöntemini kullanarak Chatbot Arena'dan ilham alırken, Chatbot Arena aynı zamanda Elo sıralama yöntemini de eş zamanlı olarak kullanıyor.
Çoğu liderlik tablosu, sıralama ve performans belirlemek için Elo yöntemine güvenir. Elo, satrançta oyuncuların göreceli becerilerini belirleyen Elo derecelendirmesini ifade eder. Hem Elo hem de Bradley-Terry olasılıksal çerçevelerdir, ancak araştırmacılar Bradley-Terry'nin daha istikrarlı derecelendirmeler ürettiğini belirtmektedir.
Makalede, "Bradley-Terry modeli, ikili karşılaştırma sonuçlarından gizli yetenekleri çıkarsamak için sağlam bir çerçeve sunuyor," denildi. "Ancak, pratik senaryolarda, özellikle de çok sayıda ve giderek artan modelle, kapsamlı ikili karşılaştırmalar yapma olasılığı hesaplama açısından engelleyici ve kaynak yoğun hale geliyor. Bu durum, sınırlı bir bütçe dahilinde bilgi kazanımını en üst düzeye çıkaran akıllı savaş stratejilerine olan kritik ihtiyacı vurguluyor."
Çok sayıda LLM programı karşısında sıralamayı daha verimli hale getirmek için Inclusion Arena'nın iki bileşeni daha vardır: yerleştirme eşleştirme mekanizması ve yakınlık örneklemesi. Yerleştirme eşleştirme mekanizması, liderlik tablosuna kaydedilen yeni modeller için bir başlangıç sıralaması tahmin eder. Yakınlık örneklemesi ise bu karşılaştırmaları aynı güven bölgesindeki modellerle sınırlar.
Peki nasıl çalışıyor?
Inclusion Arena'nın çerçevesi, yapay zeka destekli uygulamalarla entegre oluyor. Inclusion Arena'da şu anda iki uygulama mevcut: karakter sohbet uygulaması Joyland ve eğitim iletişim uygulaması T-Box. Kullanıcılar uygulamaları kullandıklarında, yanıtlar için sahne arkasında birden fazla Hukuk ve Hukuk Yüksek Lisansı (LLM) öğrencisine iletiliyor. Kullanıcılar daha sonra en çok beğendikleri yanıtı seçiyor, ancak yanıtı hangi modelin oluşturduğunu bilmiyorlar.
Çerçeve, karşılaştırma için model çiftleri oluşturmak üzere kullanıcı tercihlerini dikkate alır. Ardından, Bradley-Terry algoritması kullanılarak her model için bir puan hesaplanır ve bu da nihai liderlik tablosuna yol açar.
Inclusion AI, deneyini Temmuz 2025'e kadar olan verilerle sınırladı ve 501.003 çiftli karşılaştırmayı içeriyordu.
Inclusion Arena ile yapılan ilk deneylere göre en iyi performans gösteren model Anthropic'in Claude 3.7 Sonnet, DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 ve Qwen Max-0125 modelleridir.
Makaleye göre, bu veriler 46.611'den fazla aktif kullanıcısı olan iki uygulamadan elde edildi. Araştırmacılar, daha fazla veriyle daha sağlam ve kesin bir liderlik tablosu oluşturabileceklerini belirtti.
Piyasaya sürülen model sayısının artması, işletmelerin hangi Hukuk Yüksek Lisansı (LLM) programlarını değerlendirmeye başlayacaklarını seçmelerini zorlaştırıyor. Liderlik tabloları ve kıyaslamalar, teknik karar vericileri ihtiyaçlarına en uygun performansı sağlayabilecek modellere yönlendiriyor. Elbette, kuruluşlar daha sonra LLM programlarının uygulamaları için etkili olduğundan emin olmak için iç değerlendirmeler yapmalıdır.
Ayrıca, hangi modellerin benzerlerine kıyasla rekabetçi hale geldiğini vurgulayarak, daha geniş bir LLM ortamı hakkında fikir verir. Allen Yapay Zeka Enstitüsü'nün RewardBench 2 gibi son kıyaslamalar, modelleri işletmeler için gerçek hayattaki kullanım durumlarıyla uyumlu hale getirmeye çalışır .
Patronunuzu etkilemek istiyorsanız, VB Daily size yardımcı olabilir. Şirketlerin üretken yapay zeka ile ilgili neler yaptığına dair, mevzuat değişikliklerinden pratik uygulamalara kadar her şeyi size aktarıyoruz, böylece maksimum yatırım getirisi için fikirlerinizi paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkür ederiz. Daha fazla VB bültenine buradan ulaşabilirsiniz.
Bir hata oluştu.

venturebeat