Dil Seçin

Turkish

Down Icon

Ülke Seçin

America

Down Icon

Sadece insanları ekleyin: Oxford tıp çalışması, chatbot testinde eksik halkayı vurguluyor

Sadece insanları ekleyin: Oxford tıp çalışması, chatbot testinde eksik halkayı vurguluyor

Yaklaşık yirmi yıldır kurumsal liderlerin güvendiği etkinliğe katılın. VB Transform, gerçek kurumsal AI stratejisi oluşturan insanları bir araya getiriyor. Daha fazla bilgi edinin

Manşetler bunu yıllardır haykırıyor: Büyük dil modelleri (LLM'ler) yalnızca tıp lisanslama sınavlarını geçmekle kalmıyor, aynı zamanda insanlardan daha iyi performans gösteriyor. GPT-4, 2023'teki tarih öncesi yapay zeka günlerinde bile ABD tıp sınavı lisanslama sorularını %90 oranında doğru yanıtlayabilir. O zamandan beri, LLM'ler bu sınavlara giren asistanları ve lisanslı doktorları geride bıraktı.

Kenara çekilin, Doktor Google, ChatGPT, MD için yol açın Ancak hastalar için görevlendirdiğiniz LLM'den bir diplomadan daha fazlasını isteyebilirsiniz. Elindeki her kemiğin adını sayabilen ancak gerçek kan ilk gördüğünde bayılan bir tıp öğrencisi gibi, bir LLM'nin tıp alanındaki ustalığı her zaman doğrudan gerçek dünyaya çevrilmez.

Oxford Üniversitesi'ndeki araştırmacıların hazırladığı bir makalede , LLM'lerin doğrudan test senaryolarıyla karşı karşıya kaldıklarında ilgili koşulları %94,9 oranında doğru bir şekilde belirleyebildiği, ancak aynı senaryoları teşhis etmek için LLM'leri kullanan insan katılımcıların doğru koşulları %34,5'ten daha az oranda belirleyebildiği bulundu.

Belki daha da dikkat çekici olanı, LLM kullanan hastaların, yalnızca "evde tipik olarak kullandıkları herhangi bir yöntemi" kullanarak kendilerini teşhis etmeleri talimatı verilen bir kontrol grubundan bile daha kötü performans göstermeleridir. Kendi başlarına bırakılan grubun, LLM tarafından desteklenen gruba göre doğru koşulları belirleme olasılığı %76 daha fazlaydı.

Oxford araştırması, LLM'lerin tıbbi danışmanlık için uygunluğu ve çeşitli uygulamalar için sohbet robotu dağıtımlarını değerlendirmek için kullandığımız ölçütler hakkında sorular gündeme getiriyor.

Dr. Adam Mahdi liderliğindeki Oxford'daki araştırmacılar, LLM'ye hasta olarak kendilerini tanıtmaları için 1.298 katılımcıyı işe aldı. Hem kendilerini neyin rahatsız ettiğini hem de bunun için uygun bakım seviyesini bulmaya çalışmakla görevlendirildiler; bu, öz bakımdan ambulans çağırmaya kadar uzanıyordu.

Her katılımcıya zatürreden soğuk algınlığına kadar çeşitli durumları temsil eden ayrıntılı bir senaryo, genel yaşam ayrıntıları ve tıbbi geçmiş verildi. Örneğin, bir senaryoda arkadaşlarıyla dışarı çıktığı bir gecede felç edici bir baş ağrısı çeken 20 yaşında bir mühendislik öğrencisi anlatılıyor. Önemli tıbbi ayrıntılar (aşağı bakmak acı verici) ve yanıltıcı ipuçları (düzenli bir içici, altı arkadaşıyla aynı daireyi paylaşıyor ve stresli sınavları yeni bitirdi) içeriyor.

Çalışma üç farklı LLM'yi test etti. Araştırmacılar, popülaritesi nedeniyle GPT-4o'yu , açık ağırlıkları nedeniyle Llama 3'ü ve yardım için açık web'i aramasına olanak tanıyan geri alma-artırılmış üretim (RAG) yetenekleri nedeniyle Command R+'ı seçtiler.

Katılımcılardan, verilen bilgileri kullanarak LLM ile en az bir kez etkileşime girmeleri istendi, ancak kendi teşhislerine ve amaçlanan eyleme ulaşmak için istedikleri kadar çok kez kullanabileceklerdi.

Sahne arkasında, bir doktor ekibi oybirliğiyle her senaryoda aradıkları "altın standart" koşullara ve buna karşılık gelen eylem yoluna karar verdi. Örneğin, mühendislik öğrencimiz, acilen acil servise gitmeyi gerektiren bir subaraknoid kanamadan muzdarip.

Tıbbi bir sınavda başarılı olabilen bir LLM'nin sıradan insanların kendi kendine teşhis koymalarına ve ne yapmaları gerektiğini anlamalarına yardımcı olmak için mükemmel bir araç olacağını varsayabilirsiniz, ancak bu şekilde işe yaramadı. Çalışmada, "LLM kullanan katılımcılar, kontrol grubundakilerden daha az tutarlı bir şekilde ilgili koşulları tanımladılar ve vakaların en fazla %34,5'inde en az bir ilgili koşulu belirlerken, kontrol grubunda bu oran %47,0'dı" denildi. Ayrıca, doğru eylem yolunu çıkarsamakta başarısız oldular ve bunu yalnızca %44,2 oranında seçtiler; bağımsız hareket eden bir LLM için bu oran %56,3'tü.

Neler ters gitti?

Transkriptlere geri bakıldığında, araştırmacılar katılımcıların hem LLM'lere eksik bilgi verdiğini hem de LLM'lerin istemlerini yanlış yorumladığını buldular. Örneğin, safra kesesi taşı semptomları göstermesi beklenen bir kullanıcı LLM'ye sadece "Bir saate kadar süren şiddetli mide ağrılarım oluyor, beni kusturabiliyor ve bir paket servisle örtüşüyor" dedi ve ağrının yerini, şiddetini ve sıklığını atladı. R+ komutu katılımcının hazımsızlık yaşadığını yanlış bir şekilde önerdi ve katılımcı bu durumu yanlış tahmin etti.

LLM'ler doğru bilgileri sunsa bile, katılımcılar her zaman önerilerini takip etmediler. Çalışma, GPT-4o konuşmalarının %65,7'sinin senaryo için en az bir ilgili koşulu önerdiğini, ancak katılımcıların nihai cevaplarının %34,5'inden azının bu ilgili koşulları yansıttığını buldu.

Chapel Hill Kuzey Carolina Üniversitesi Rönesans Bilgi İşlem Enstitüsü'nde (RENCI) kullanıcı deneyimi uzmanı olan Nathalie Volkheimer'a göre bu çalışma yararlı ancak şaşırtıcı değil.

"İnternet aramasının ilk günlerini hatırlayacak kadar yaşlı olanlarımız için bu bir déjà vu," diyor. "Bir araç olarak, büyük dil modelleri, özellikle kaliteli bir çıktı beklendiğinde, istemlerin belirli bir kalite derecesinde yazılmasını gerektirir."

Kör edici bir acı yaşayan birinin harika uyarılar sunmayacağını belirtiyor. Bir laboratuvar deneyindeki katılımcılar semptomları doğrudan deneyimlemeseler de, her ayrıntıyı aktarmıyorlardı.

"Hastalarla ön saflarda ilgilenen klinisyenlerin belirli bir şekilde ve belirli bir tekrarlamayla soru sormak üzere eğitilmelerinin de bir nedeni var," diye devam ediyor Volkheimer. Hastalar, neyin alakalı olduğunu bilmedikleri için bilgileri atlıyorlar veya en kötüsü, utandıkları veya mahcup oldukları için yalan söylüyorlar.

Sohbet robotları bunlara hitap edecek şekilde daha iyi tasarlanabilir mi? Volkheimer, "Burada vurguyu makinelere koymazdım," diye uyarıyor. "Vurgunun insan-teknoloji etkileşimine olması gerektiğini düşünüyorum." Arabanın, insanları A noktasından B noktasına götürmek için yapıldığını, ancak başka birçok faktörün de rol oynadığını söylüyor. "Bu, sürücü, yollar, hava durumu ve rotanın genel güvenliğiyle ilgili. Sadece makineye bağlı değil."

Oxford araştırması, insanlarla veya hukuk yüksek lisans programlarıyla ilgili değil, onları bazen boşlukta ölçme biçimimizle ilgili bir sorunu vurguluyor.

Bir LLM'nin tıp lisanslama sınavını, emlak lisanslama sınavını veya eyalet baro sınavını geçebileceğini söylediğimizde, insanları değerlendirmek için tasarlanmış araçlar kullanarak bilgi tabanının derinliklerini araştırıyoruz. Ancak, bu ölçümler bize bu sohbet robotlarının insanlarla ne kadar başarılı bir şekilde etkileşime gireceği hakkında çok az şey söylüyor.

Dr. Volkheimer, "İpuçları ders kitabı niteliğindeydi (kaynak ve tıp camiası tarafından doğrulandı), ancak hayat ve insanlar ders kitabı niteliğinde değil" diye açıklıyor.

Dahili bilgi tabanında eğitilmiş bir destek sohbet robotu dağıtmak üzere olan bir işletmeyi hayal edin. Bu robotu test etmenin mantıklı görünen bir yolu, şirketin müşteri destek stajyerleri için kullandığı aynı testi yaptırmak olabilir: önceden yazılmış "müşteri" destek sorularını yanıtlamak ve çoktan seçmeli yanıtlar seçmek. %95'lik bir doğruluk kesinlikle oldukça umut verici görünecektir.

Sonra dağıtım gelir: Gerçek müşteriler belirsiz terimler kullanır, hayal kırıklıklarını ifade eder veya sorunları beklenmedik şekillerde anlatır. Sadece net sorularla kıyaslanan LLM kafası karışır ve yanlış veya yardımcı olmayan cevaplar verir. Durumları yatıştırma veya etkili bir şekilde açıklama arama konusunda eğitilmemiş veya değerlendirilmemiştir. Öfkeli yorumlar birikir. LLM, insan meslektaşları için sağlam görünen testlerden başarıyla geçmesine rağmen lansman bir felakettir.

Bu çalışma, yapay zeka mühendisleri ve orkestralama uzmanları için kritik bir hatırlatma görevi görüyor: Bir LLM, insanlarla etkileşime girecek şekilde tasarlanmışsa, yalnızca etkileşimsiz ölçütlere güvenmek, gerçek dünya yetenekleri hakkında tehlikeli bir yanlış güvenlik duygusu yaratabilir. İnsanlarla etkileşime girecek bir LLM tasarlıyorsanız, bunu insanlarla test etmeniz gerekir - insanlar için testler değil. Peki daha iyi bir yol var mı?

Oxford araştırmacıları çalışmaları için yaklaşık 1.300 kişi işe aldılar, ancak çoğu işletmenin yeni bir LLM ajanıyla oynamak için etrafta bekleyen bir test denekleri havuzu yok. Öyleyse neden yapay zeka testçilerini insan testçilerle değiştirmiyoruz?

Mahdi ve ekibi de simüle edilmiş katılımcılarla bunu denedi. "Sen bir hastasın," diye uyardılar, tavsiyeyi verecek olandan ayrı bir LLM. "Belirtilerinizi verilen vaka özetinden ve bir yapay zeka modelinden yardım alarak kendi kendinize değerlendirmelisiniz. Verilen paragrafta kullanılan terminolojiyi basitleştirin ve sorularınızı veya ifadelerinizi makul ölçüde kısa tutun." LLM'ye ayrıca tıbbi bilgi kullanmaması veya yeni belirtiler üretmemesi talimatı verildi.

Bu simüle edilmiş katılımcılar daha sonra insan katılımcıların kullandığı aynı LLM'lerle sohbet ettiler. Ancak çok daha iyi performans gösterdiler. Ortalama olarak, aynı LLM araçlarını kullanan simüle edilmiş katılımcılar ilgili koşulları %60,7 oranında çözdüler, insanlarda ise bu oran %34,5'in altındaydı.

Bu durumda, LLM'lerin diğer LLM'lerle insanlardan daha iyi anlaştıkları ortaya çıkıyor, bu da onları gerçek hayattaki performansın zayıf bir göstergesi yapıyor.

LLM'lerin kendi başlarına elde edebilecekleri puanlar göz önüne alındığında, burada katılımcıları suçlamak cazip gelebilir. Sonuçta, birçok durumda LLM'lerle yaptıkları görüşmelerde doğru tanıyı aldılar, ancak yine de doğru bir şekilde tahmin edemediler. Ancak Volkheimer, bunun herhangi bir işletme için akılsızca bir sonuç olacağı konusunda uyarıyor.

Volkheimer, "Her müşteri ortamında, müşterileriniz sizin istediğiniz şeyi yapmıyorsa, yapacağınız son şey müşteriyi suçlamaktır," diyor. "Yapacağınız ilk şey neden diye sormaktır. Ve kafanızdan geçen 'neden' değil: derinlemesine araştırılmış, belirli, antropolojik, psikolojik, incelenmiş bir 'neden'. Başlangıç ​​noktanız budur."

Volkheimer, bir sohbet robotu dağıtmadan önce hedef kitlenizi, hedeflerini ve müşteri deneyimini anlamanız gerektiğini öne sürüyor. Tüm bunlar, nihayetinde bir LLM'yi yararlı hale getirecek olan kapsamlı, uzmanlaşmış belgeleri bilgilendirecektir. Dikkatlice düzenlenmiş eğitim materyalleri olmadan, "Herkesin nefret ettiği bazı genel cevaplar ortaya çıkacaktır, bu yüzden insanlar sohbet robotlarından nefret ediyor," diyor. Bu olduğunda, "Bunun nedeni sohbet robotlarının berbat olması veya teknik olarak bir sorun olması değil. İçlerinde kullanılan şeylerin kötü olması."

Volkheimer, "Teknolojiyi tasarlayan, oraya girecek bilgileri ve süreçleri ve sistemleri geliştiren insanlar, aslında insanlardır," diyor. "Onların da geçmişleri, varsayımları, kusurları ve kör noktaları ve güçlü yanları vardır. Ve tüm bunlar herhangi bir teknolojik çözüme entegre edilebilir."

VB Daily ile iş kullanım örneklerine ilişkin günlük içgörüler

Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.

Gizlilik Politikamızı okuyun

Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.

Bir hata oluştu.

venturebeat

venturebeat

Benzer Haberler

Tüm Haberler
Animated ArrowAnimated ArrowAnimated Arrow