OpenAI, ChatGPT'nin Bazı İş Görevlerini İnsanlar Kadar İyi Yapabildiğini Söylüyor

OpenAI, yapay zekanın iş hayatında gerçekten faydalı olabileceğini savunmaya çalışıyor; zira son zamanlarda yapılan bazı araştırmalar, şirketlerin yapay zeka yatırımlarından pek fazla verim alamadığını gösteriyor.
ChatGPT'nin geliştiricisi Salı günü, 44 farklı işte "ekonomik açıdan değerli, gerçek dünya görevlerinde" yapay zekayı test etmek için yeni bir ölçüt sunan bir rapor yayınladı. Değerlendirmenin adı GDPval ve OpenAI, iş yeri yapay zekası tartışmalarını abartıya değil kanıtlara dayandırmayı ve modellerin zaman içinde nasıl geliştiğini izlemeyi amaçladığını söylüyor.
Bu gelişme, MIT Medya Laboratuvarı'nın yakın zamanda yaptığı bir araştırmanın hemen ardından geldi. Bu araştırma, on yapay zeka pilot projesinden birinden azının ölçülebilir gelir artışı sağladığını ve " kuruluşların yüzde 95'inin yapay zeka yatırımlarından sıfır getiri elde ettiği " uyarısında bulundu. Geçtiğimiz hafta ise Harvard Business Review'ın BetterUp Laboratuvarları ve Stanford Üniversitesi Sosyal Medya Laboratuvarı'ndan araştırmacılar, yetersiz sonuçlardan " iş yükü "nü sorumlu tuttu. İş yükü, "iyi iş gibi görünen, ancak belirli bir görevi anlamlı bir şekilde ilerletmek için gerekli özden yoksun, yapay zeka tarafından üretilen iş içeriği" olarak tanımlanıyor.
OpenAI, GDPval'in, yapay zeka modellerini insanların iş yerinde yaptıkları günlük görevlerden ziyade soyut akademik problemler üzerinde test eden mevcut kıyaslama ölçütlerinin bıraktığı boşluğu doldurduğunu savunuyor.
GSYİH'nın ölçtüğü nedir?OpenAI, raporu duyuran bir blog yazısında, "Bu değerlendirmeye GDPval adını veriyoruz çünkü Gayri Safi Yurtiçi Hasıla (GSYİH) kavramını temel ekonomik gösterge olarak ele aldık ve GSYİH'ye en çok katkıda bulunan sektörlerdeki temel mesleklerden görevler çıkardık" ifadelerini kullandı.
Kriterin ilk versiyonu, ABD GSYİH'sinin en büyük payını oluşturan gayrimenkul, kamu, imalat ve finans gibi dokuz sektördeki 44 işi kapsıyor. OpenAI, her sektörde en yüksek ücret ve tazminatı sağlayan rollere odaklanarak, "bilgi işi" olarak adlandırdıkları işe odaklandı.
OpenAI, test setini oluşturmak için bu sektörlerden ortalama 14 yıllık deneyime sahip profesyonelleri işe aldı ve gerçek dünya görevlerini tasarladı. Her uzman ayrıca, görevin nasıl yapılması gerektiğine dair insan eliyle yazılmış bir örnek oluşturdu. Örnek görevler arasında hukuki bir brifing taslağı hazırlamak, bir mühendislik planı hazırlamak, bir müşteri destek görüşmesini yönetmek veya bir hemşirelik bakım planı yazmak yer alır.
Rapor, meslek başına 30 tam olarak incelenmiş görev ve meslek başına beş açık kaynaklı görevden oluşan daha küçük bir "altın set" içeriyor. Performansı ölçmek için OpenAI, veri setinde temsil edilen aynı alanlardan profesyoneller olan uzman değerlendiriciler kullandı. Bu profesyoneller, yapay zeka tarafından üretilen çıktıları görev yazarları tarafından üretilenlerle kör bir şekilde derecelendirdi ve eleştiri ve sıralamalar sundu. Daha sonra her birini birbirinden daha iyi, aynı derecede iyi veya daha kötü olarak sıraladılar.
GDPval'in bulduğu şeyRaporda, günümüzün en iyi yapay zeka modellerinin, insan uzmanların ürettiği işlerin kalitesine yaklaştığı belirtildi.
GDPval altın setindeki 220 görev üzerinde yapılan testlerde, değerlendiriciler yedi lider modelin çıktılarını sektör profesyonelleriyle karşılaştırdı.
Claude Opus 4.1, insanlar tarafından tamamlanan görevlere karşı %47,6'lık bir galibiyet ve beraberlik oranıyla zirveye yerleşti. Özellikle belge biçimlendirme ve slayt düzeni gibi estetik konularda oldukça başarılıydı.
GPT-5 High, %38,8'lik galibiyet ve beraberlik oranıyla ikinci sırada yer aldı. Güçlü yanı ise talimatları dikkatlice takip etme ve doğru hesaplamalar yapma gibi isabetliliğiydi.
GPT-4o ise sadece %12,4'lük galibiyet ve beraberlik oranıyla son sırada yer aldı
Yapay zeka modelleri, tezgah ve kiralama memurları, nakliye, teslim alma ve envanter memurları, satış yöneticileri ve yazılım geliştiricileri gibi mesleklerden gelen görevlerde özellikle iyi performans gösterdi.
Endüstri mühendisi, tıp mühendisi, eczacı, finans yöneticisi, video editörü gibi mesleklerden gelen görevlerde daha çok zorlandıkları görüldü.
Örneğin, Claude Opus 4.1, tezgah ve kiralama görevlileri tarafından yapılan görevlerle (%81) en yüksek kazanma ve berabere kalma oranına sahipken, bunu sevkiyat, teslim alma ve envanter görevlileri (%76) takip etti. En düşük puanlar ise endüstri mühendisleri ve film ve video editörleri (%17) ve ses ve görüntü teknisyenleri (%2) tarafından yapılan görevlerdeydi.
OpenAI ayrıca bu modellerin GDPval görevlerini insan uzmanlara göre yaklaşık 100 kat daha hızlı ve 100 kat daha ucuza halledebileceğini iddia ediyor.
Yine de OpenAI, yapay zekanın iş piyasasını yeniden şekillendirse bile, insanların yerini tamamen alamayacağını vurguladı. Şirketin deyişiyle, "çoğu iş, yazıya dökülebilen bir dizi görevden daha fazlasıdır."
OpenAI, "GDPval, yapay zekanın rutin görevleri nasıl halledebileceğini ve böylece insanların işin yaratıcı, yargı ağırlıklı kısımlarına daha fazla zaman ayırabileceğini vurguluyor" diye yazdı.
gizmodo