Dil Seçin

Turkish

Down Icon

Ülke Seçin

France

Down Icon

Yapay zeka bir doktor gibi konuşarak teşhis koymayı öğrendiğinde

Yapay zeka bir doktor gibi konuşarak teşhis koymayı öğrendiğinde

"Ayırıcı tanı!" Dr. House, karmaşık bir klinik vakayla karşılaştığında ekibine her hitap ettiğinde bu iki kelime bir emir gibi yankılanır. Ünlü dizinin her bölümünde her şey bu ritüel etrafında döner: Beyaz tahtaya belirti ve semptomların bir listesini, ardından olası hastalıkların bir listesini yazmak , bunları tartışmak, bazılarını elemek, diğerlerine öncelik vermek, ta ki en makul hipotez oluşturulana kadar. Tüm bunlar, semptomları, hastanın tıbbi geçmişini, laboratuvar sonuçlarını, görüntüleme verilerini ve kişisel ve aile geçmişini hesaba katarak yapılır. Her klinisyenin tanısal muhakemesini yapılandıran, hem titiz hem de tümdengelimli bu yaklaşımdır.

Ayırıcı tanı için yapay zeka kullanan bir doktorun çizimi. FREEPIK

Peki ya yetenekli stajyerler ve deneyimli doktorların bir araya geldiği bir toplantıya liderlik etmek yerine, ünlü teşhis doktorunun ayırıcı tanıyı koyması için yapay zekadan yardım alması durumunda ne olur?

Bu yazının ilk bölümünde , bir klinisyen ile bir yapay zekanın büyüleyici bir tıbbi akıl yürütme düellosuna girişmesini somut bir şekilde örnekleyen bir çalışmayı ele aldım. Ardından, bir yapay zekanın bir asırlık gerçek tıbbi vakalara dayanarak nasıl akıl yürütebileceğini gösteren ikinci bir çalışmadan bahsettim.

Taklitten işbirliğine: AMIE ve ayırıcı tanı

Ancak bir doktorun yaklaşımını taklit etmekle, onunla aynı mantıkta düşünmek arasında dünyalar kadar fark vardır. Nisan 2025'te Nature dergisinde yayınlanan iki deneysel çalışma da tam olarak bunu keşfetmeyi amaçlamıştır: Tıbbi akıl yürütmeyi yazabilen bir yapay zekayı, klinisyenin düşüncesine yardımcı olabilecek, onu teşvik edebilecek veya tamamlayabilecek iş birlikçi bir araca nasıl dönüştürebiliriz?

Bu deney için araştırmacılar, New England Journal of Medicine'de (NEJM) bir asırdır yayınlanan Massachusetts Genel Hastanesi'nin ünlü Vaka Kayıtları'na güvendiler. Tıbbi akıl yürütmeyi öğretmek için gerçek modeller olan bu klinikopatoloji konferansları (KPA), genellikle kafa karıştırıcı vakalar sunar ve titiz bir analiz ve hipotezlerin titizlikle önceliklendirilmesini gerektirir. Seçilen KPA'lar, iç hastalıkları, nöroloji, pediatri ve psikiyatri gibi ana uzmanlık alanlarını kapsıyordu.

Ortalama on bir yıldan fazla mesleki deneyime sahip yirmi klinisyen, 302 karmaşık tıbbi vakayı değerlendirmek üzere davet edildi. Her vaka, farklı bir deneysel koşula yerleştirilmiş iki ayrı klinisyen tarafından incelendi. İlk koşulda, hekimin yalnızca standart kaynakları vardı: arama motorları ve tıbbi veritabanları (UptoDate, Google Arama, PubMed). İkinci koşulda ise, Google Research ve Google DeepMind tarafından geliştirilen ve özellikle tanısal akıl yürütme için tasarlanmış bir yapay zeka modeli olan AMIE'nin ( Articulate Medical Intelligence Explorer ) yardımından da yararlandılar.

Tüm katılımcıların, sağlanan araçları kullanarak egzersizi tekrarlamadan önce, herhangi bir yardım almadan ilk ayırıcı tanıyı önermeleri gerekiyordu. Amaç: Yapay zeka yardımıyla ve yapay zeka yardımı olmadan, teşhislerinin kalitesini, doğruluğunu ve kapsamlılığını karşılaştırmak.

Her yapay zeka modeline aynı senaryo verildi: eksiksiz bir klinik vakayı oku, ayırıcı tanı koy, hipotezleri olasılıklara göre sırala ve gerekçesini açıkla. Sonuçlar daha sonra hekimlerin sonuçları ve nihai tanı ile karşılaştırıldı.

Çalışma, basit ve açıklayıcı bir ölçüte dayanıyordu: ilk 10 doğruluk , yani doğru teşhisin ilk on olasılık arasında yer aldığı vakaların oranı. Bu gösterge, hem akıl yürütmenin sağlamlığını hem de genişliğini, yani hipotez yelpazesini daraltmadan önce "geniş düşünme" yeteneğini değerlendirir.

Büyük dil modelleri (LLM'ler), istatistiksel bir ilkeye dayanır: Tıp literatüründen, bilimsel makalelerden ve klinik diyaloglardan milyarlarca kelimeyle eğitim aldıktan sonra, bir metnin en olası devamını tahmin etmeyi öğrenirler. Bu süreç, semptomları, hastalıkları ve tedavileri ilişkilendirmelerine olanak tanır, ancak patofizyolojiyi, yani hastanın durumunun altında yatan mekanizmaları tam olarak anlamadan.

Yapay zekâ hastayı görmez, duymaz veya hissetmez: nedensellik üzerinden değil, olasılıklar üzerinden akıl yürütür. Yapay zekâda akıl yürütme, mevcut bilgileri kullanarak tahminler üretme, çıkarımlar yapma (yani, örüntüleri tanıma ve modelin daha önce hiç görmediği verilerden sonuçlar çıkarma) sürecidir.

Böylece, ateşli ve sarılıklı bir hastayı anlatan cümlelerden, binlerce benzer örnekte gözlemlenen örüntülerden yararlanarak olası tanıların bir listesini çıkarabilir. Bu metin tahmin mekanizması, aslında akıl yürütme olmasa da, akıl yürütmeyi simüle etmesini sağlar: nedenleri çıkarmak yerine, kelimeleri ve bağlamları ilişkilendirir.

AMIE büyük dil modeli, yalnızca tıbbi metinler üzerinde değil, aynı zamanda doktor ve hasta arasındaki simüle edilmiş klinik diyaloglar üzerinde de eğitilmiştir. Klinisyenlerle aktif bir diyaloğa girmek ve yapılandırılmış akıl yürütme üretmek üzere tasarlanmıştır. Bu etkileşimli yaklaşım, hipotezler oluşturmasına, sorular sormasına ve akıl yürütmesini gözden geçirmesine olanak tanır.

GPT-4 sadece metin üretirken, AMIE tıbbi bir alışverişin dinamiklerini taklit eder: sorular sorar, yeniden formüle eder, gerekçelendirir.

Yardımsız hekimlere kıyasla üstün performans

AMIE, GPT-4 ile karşılaştırılabilir bir ilk 10 doğruluk oranına (yaklaşık %85) ulaştı, ancak açıklamalarının alakalılığıyla öne çıktı: gerekçeleri daha yapılandırılmıştı ve insan yaklaşımına daha yakındı.

AMIE modeli, insan müdahalesi olmadan tek başına çalışırken %59'luk bir ilk 10 doğruluk oranına ulaşmıştır. Bu, vakaların neredeyse altısında doğru tanının, makine tarafından yapılan ilk on öneri arasında yer aldığı anlamına gelir. Yardım kullanan klinisyenlerin ilk 10 doğruluk oranı %51,8'dir. AMIE'nin tek başına elde ettiği performans, aynı koşullar altında %33,6'ya ulaşan yardımsız çalışan klinisyenlerin performansını önemli ölçüde aşmaktadır.

Başka bir deyişle, yapay zekâ, genel tanısal akıl yürütmede insan performansını neredeyse iki katına çıkarıyor. Bu istatistiksel olarak anlamlı sonuç, makinenin kendi haline bırakıldığında, özellikle karmaşık vakalarda bile ilgili bir klinik yaklaşımı yeniden üretebildiğini gösteriyor.

En iyi 1 doğruluk (birincil tanı listede ilk sırada yer alıyor) açısından performans, yalnızca AMIE için %29,2 iken, yardımsız klinisyenler için yalnızca %15,9 ve AMIE tarafından yardım alan doktorlar için yalnızca %25,2 idi.

"Çalışmamız, AMIE'nin yalnızca doğru cevabı verme veya bir listeden doğru cevabı sağlama olasılığının daha yüksek olduğunu göstermekle kalmayıp, aynı zamanda ayırıcı tanılarının, referanslara ve araştırma araçlarına erişimi olan sertifikalı hekimler tarafından üretilenlerden daha alakalı ve kapsamlı olarak bağımsız bir değerlendirici tarafından değerlendirildiğini göstererek önceki gözlemleri genişletiyor," diyor Daniel McDuff, Mike Schaekermann, Jake Sunshine, Vivek Natarajan ve meslektaşları.

Bu sonuçlar, AMIE'nin yalnızca klinik vakaları açıklayan metinlere erişimi olmasına, klinisyenlere sunulanların ise resim ve tablolar içermesine rağmen elde edilmiştir. AMIE, bu sınırlamaya rağmen klinisyenlerden daha iyi performans gösterse de, şekil ve tablolara da erişimleri olsaydı bu farkın ne ölçüde genişleyeceği bilinmemektedir.

Yapay zeka, tanı doğruluğunu artırıyor

Ancak AMIE'nin değeri yalnızca bağımsız olarak akıl yürütme becerisinde değil, aynı zamanda öncelikle hekimlerin daha etkili akıl yürütmelerine yardımcı olmasında yatmaktadır. Bu nedenle araştırmacılar, klinisyenlerin koyduğu teşhisleri üç durumda karşılaştırdılar: yardım almadan, bir arama motorunun yardımıyla veya AMIE ve çevrimiçi kaynakların birlikte yardımıyla.

Sonuç: AMIE'den yardım alan klinisyenler arasında tanıların ortalama kalitesi önemli ölçüde daha yüksekti. İlk 10'daki doğruluk oranları %51,8'e ulaşırken, yardım almayan hekimlerde bu oran %33,6, yalnızca çevrimiçi aramadan yardım alan hekimlerde ise %44,5'ti. AMIE tek başına kullanıldığında ise bu oran %59,1'e ulaştı.

Bu farklılıklar, yapay zekânın kullanıldığı klinik akıl yürütmede belirgin ve tekrarlanabilir bir iyileşmeyi yansıtmaktadır. Dolayısıyla, hekimler AMIE ile etkileşim kurduklarında, tek başlarına çalıştıkları veya yalnızca çevrimiçi bilgi aradıkları zamana kıyasla daha doğru akıl yürütmektedirler.

AMIE'nin yardımıyla, klinisyenler ortalama 7,6 ayırıcı tanı listelerken, geleneksel arama yöntemleri kullanıldığında bu sayı 6,9, herhangi bir yardım almadan kullanıldığında ise 6,4'tür. Bu listelerin uzunluğu, ele alınan tanı hipotezlerinin çeşitliliğini yansıtmaktadır. AMIE'nin yardımı, hekimler tarafından öne sürülen tanı hipotezlerinin yelpazesini genişletmiştir.

AMIE kullanan hekimlerin ayırıcı tanılarını koymaları ortalama 7,29 dakika sürdü; bu süre, kendi çevrimiçi aramalarını yaptıklarında gözlemlenen süre olan 7,19 dakikaya neredeyse eşit. Bu sonuç, klinisyenlerin uzun süredir uyguladıkları ve ustalaştıkları alışıldık internet arama yöntemlerini kullanarak daha hızlı olmaları beklenebileceği düşünüldüğünde daha da dikkat çekici. AMIE'nin tanı süreçlerini yavaşlatmaması, aracın yeniliğine rağmen sistemin iş akışlarına sorunsuz bir şekilde entegre olduğunu gösteriyor.

Bu sonuçlar ikili bir gelişmeyi yansıtmaktadır: Bir yandan yapay zekâ artık deneyimli bir pratisyen hekiminkine benzer düzeyde otonom diferansiyel muhakeme üretebilmektedir; diğer yandan bilişsel süreçlerine entegre edildiğinde doktorların muhakemelerini de geliştirmektedir.

Makine yapılandırılmış tıbbi akıl yürütme üretiyor

Bu çalışma, sayıların ötesinde, nitel bir değişimi de vurguluyor: Makine artık sadece kelimeleri ilişkilendirmekle kalmıyor, aynı zamanda gerçek ve yapılandırılmış bir akıl yürütme üretiyor. Araştırmacılar, modeller tarafından üretilen "düşünce zincirlerini" analiz ederek, bir klinisyeninkine benzer bir metinsel mantık gözlemliyorlar.

Bir hasta belirli semptomlar gösterdiğinde, yapay zeka bu bilgileri bilinen nedenlerle ilişkilendirir ve ardından klinik tablonun tutarlılığına dayanarak hipotezleri reddeder veya korur. Bu yaklaşım, klinik akıl yürütmenin yapısını sadık bir şekilde yeniden üretir: ilgili gerçeklerin çıkarılması, hipotezlerin formüle edilmesi, verilerle karşılaştırma, tutarsızlıkların giderilmesi, önceliklendirme ve nihai gerekçelendirme.

Yapay zekanın ilerici bir argüman üretme yeteneği büyük bir ilerlemeye işaret ediyor: Model artık sadece kelime tahmin etmekle sınırlı değil; uygulayıcının hangi testi reçete edeceğine veya hangi tanı hipotezini koruyacağına karar vermeden önce çeşitli olasılıkları değerlendirdiği o an olan tıbbi değerlendirmeyi simüle ediyor. Başka bir deyişle, eski sistemlerin aksine, bu yapay zekalar artık sadece teşhisleri listelemiyor: belirli bir hastalığı neden önerdiklerini ve akıl yürütmelerinin hangi unsurlara dayandığını açıklıyorlar.

Çok gerçek sınırlamalar: halüsinasyonlar ve uydurmalar

Etkileyici performansına rağmen araştırmacılar temkinli davranıyor. Yapay zekânın hastaya doğrudan erişimi yok: dinleme, elle muayene, perküsyon veya oskültasyon yok. Muhakeme yeteneği metne dayanıyor, yaşanmış deneyime değil. Klinik muayenenin nüanslarını algılayamıyor: gerçeklikten değil, dilden yola çıkarak muhakeme ediyor. Bu mesafe, bazı tekrarlayan hataları açıklıyor.

Modeller, tamamen uydurma tepkiler anlamına gelen "halüsinasyonlar" veya doğru bilgileri çarpıtan veya yanlış yorumlayan "konfabülasyonlar" üretebilirler. Başka bir deyişle, halüsinasyon tamamen uydurmadır; konfabülasyon ise gerçek olguların yanlış atıfını veya çarpıtılmasını içerir; örneğin, bir cümleyi doğru bir şekilde alıntılayıp yanlış kaynağa atfetmek gibi.

Bu hatalar, son derece kolay formüle edilebildikleri için daha da sinsi. Ne kadar etkileyici olursa olsun, akıcılığın tıbbi akıl yürütmenin güvenilirliğini hiçbir şekilde garanti etmediğini unutmamak önemlidir. Yapay zekâ modelleri, cevapları gerçekten de şaşırtıcı bir kolaylıkla formüle edebilir ve bu da açıklamalarını daha da ikna edici hale getirir... yanlış olsalar bile. Bu olgu, araştırmacıların anlama yanılsaması adını verdiği durumu gözler önüne seriyor: Model ne kadar kendinden emin görünürse, ister yanlış bir ilaç dozu, ister iki benzer durum arasındaki karışıklık olsun, hatayı tespit etmek o kadar zorlaşır.

Klinik bir ortamda, yanlış ama kendinden emin bir şekilde ifade edilen bir cevap - " modele aşırı güven" olarak bilinen şey - klinisyeni kolaylıkla teşhis veya tedavi açısından çıkmaza sokabilir.

Stanford Üniversitesi'nden hekimler ve yapay zekâ araştırmacıları, Ağustos 2025'te Nature Medicine dergisinde yayınlanan bir başyazıda, bu nedenle sıkı kontrol mekanizmalarına ihtiyaç duyulduğunu vurguluyor. Bu sistemlere, resmi bir tavsiyeye atıfta bulunmadan ve bu güvenlik önlemlerini atlatmak için herhangi bir dolambaçlı ifadeye izin vermeden, bir ilaç dozunun belirtilmesini yasaklamak gibi katı kurallar getirilmesini özellikle tavsiye ediyorlar.

Bu filtrelerin ötesinde, yazarlar hassas tıbbi kullanımlar için tasarlanan yapay zeka modellerinin (ayırıcı tanı da bunlardan biridir) yalnızca yetkili profesyonellerin erişebildiği kapalı, güvenli ortamlarda çalışması gerektiğini savunuyorlar.

Ağustos 2025'te JAMA Network Open'da yayınlanan, Stanford Üniversitesi'nde yürütülen bir çalışma, MedQA veritabanından 68 çoktan seçmeli tıp sorusu üzerinde altı dil modelini değerlendirdi. Araştırmacıların zekice bir fikri vardı: doğru cevabı "diğer cevapların hiçbiri" ile değiştirmek. Amaç, yapay zekaların muhakeme yeteneklerini test etmek, bu manipülasyondan önceki ve sonraki performanslarını karşılaştırmak ve aynı zamanda onları muhakemelerini açıklamaya ("düşünce zinciri") teşvik etmekti.

Test edilen modeller DeepSeek-R1, o3-mini, Claude 3.5 Sonnet, Gemini 2.0 Flash, GPT-4o ve Llama 3.3-70B idi. Hepsinin doğruluk oranında bir düşüş görüldü; bu da gerçek anlamda akıl yürütmek yerine kalıpları tanıdıklarını gösteriyor. En iyi performans gösteren DeepSeek-R1 ve o3-mini bile, değişiklikten sonra sırasıyla %8,8 ve %16,1 oranında yanlış cevap vererek önemli düşüşler kaydetti. Bu sonuçlar, soru ifadesi beklenen çerçeveden saptığında bu modellerin nasıl yön kaybettiğini gösteriyor.

Yazarlar, "Alışılmış tepki kalıplarının dışında akıl yürütmeye zorlandığında, tüm modellerin doğruluk oranları düşüyor ve bu da yapay zekanın otonom klinik kullanıma hazır olduğu fikrini sorgulatıyor. Bir kalıp bozulmasıyla karşılaştığında doğruluğu %80'den %42'ye düşen bir sistem, yeni sunumların sık görüldüğü klinik bir ortamda güvenilir olmayacaktır. Bu sonuçlar, bu sistemlerin başlangıç ​​puanlarının gösterdiğinden daha kırılgan olduğunu gösteriyor," diye sonuca varıyor.

Bazen de mankenlerin ikincil bir ayrıntıya aşırı önem vermesi veya tam tersine önemli bir semptomu göz ardı etmesi, doktorun düşüncesini iyileştirmek yerine engelleme riski taşır.

Çalışmanın yazarları, "Yapay zeka sistemlerinin, ikna edici diyaloglar da dahil olmak üzere, yanıltıcı bilgiler üretme riski göz önüne alındığında, klinisyenlerin, doktor-hasta ilişkisindeki merkezi rollerini ve tanı ve tedavi bakımındaki nihai sorumluluklarını gözden kaçırmadan, yapay zekanın temel sınırlamalarını anlamaları çok önemlidir" diye hatırlatıyor.

Bu yapay zekâ modellerinin, eğitildikleri verilerin önyargılarını yansıttığını vurgulamak önemlidir: Yaygın patolojileri tercih ederken, daha nadir olanları göz ardı ederler. Mantıkları, ne kadar karmaşık olursa olsun, olasılıkçıdır ve sezgiden ve kişisel deneyimden yoksundur.

Araştırmacılar ayrıca, etkileyici doğruluk oranlarına rağmen ( ilk 1 doğruluk için yaklaşık %30 ve ilk 10 doğruluk için %60) özellikle belirli bir hastalığın kesin tanısını koymaya olanak tanıyan karakteristik göstergeler olan, düşündürücü anahtar kelimeler veya patognomonik belirtilerin bulunmadığı klinik vakalarda hala önemli iyileştirme alanı olduğunu belirtiyorlar.

Son olarak, incelenen vakaların klinik durumlardan ziyade tıbbi bulmacalara daha çok benzemesi nedeniyle yazarlar bu modellerin gerçek dünya pratiğine daha yakın bağlamlarda değerlendirilmesini önermektedirler.

Umut vadeden bir destek aracı

Bu sınırlamalara rağmen, çalışma, büyük dil modellerinin tıbbi akıl yürütmeye yardımcı olma konusunda önemli bir potansiyele sahip olduğunu vurgulamaktadır. AMIE gibi sistemler, ayırıcı tanı kapsamını genişletebilir, hekimlere nadir görülen nedenleri hatırlatabilir veya daha ileri tetkikler önerebilir. Dolayısıyla, uygulayıcının akıl yürütmesini zenginleştirebilecek gerçek birer tanı aracıdırlar.

Ayırıcı tanıların doğruluğunu artırarak ve akıl yürütme süresini kısaltarak, bu modeller karar verme araçları olarak ve tıp eğitiminde kendilerine yer bulabilirler. Pedagojik kullanımları özellikle umut vericidir: Öğrencilerin kendi akıl yürütmelerinin metinsel bir yansımasını sunarak tanı yaklaşımlarını yapılandırmalarına yardımcı olabilirler.

Yakın zamanda kullanıma girmesine rağmen, AMIE kullanımı, geleneksel aramalara veya diğer bilgi kaynaklarına kıyasla herhangi bir verimlilik kaybına veya klinik vakaların çözümü için gereken sürenin artmasına neden olmamıştır. Bu durum, konuşma arayüzünün gizli ve sezgisel olduğunu göstermektedir. Ankete katılan klinisyenler, AMIE'nin kullanımını kolay bulmuş ve uygulamaları ve etkileri hakkında genel olarak olumlu görüş bildirmişlerdir.

AMIE'nin tek başına kullanımı ile klinisyenleri desteklemek için kullanımı arasında gözlemlenen performans farkını açıklayan birkaç faktör vardır. İlk olarak, uygulayıcılar yapay zekâ ile etkileşime girdikten sonra bile ilk tanı hipotezlerine bağlı kalma eğilimindedir. İkinci olarak, yapay zekâ, hekimin sorularından etkilenebilir ve bazı uygulayıcılar AMIE'nin gerçeklerle desteklenmeyen ipuçlarını takip edebileceğini belirtmektedir. Son olarak, hekimler AMIE gibi bir aracın belirsizliğini açıkça ifade edebilmesinin önemini vurgulamaktadır. Şüpheyi dile getirme yeteneği, hekimlerin yapay zekânın önerilerine ve bu önerilerin akıl yürütmelerine nasıl entegre edildiğine duydukları güven açısından hayati önem taşımaktadır.

Bu çalışma, yapay zekâ ve tıp alanlarının kesişiminde bir dönüm noktası teşkil ediyor. Nitekim, Dr. Gregory House'un parlak sezgilerinden yoksun olsa da, yapay zekâ artık sadece tıbbi bilgileri ezberlemekle kalmıyor; tıbbi akıl yürütmeyi de kavramaya başlıyor. Klinisyenler, ayırıcı tanılarını netleştirmek ve eğitimlerini zenginleştirmek için yapay zekâya güvenebilirler.

Yapay zeka doktorla konuşmayı öğrendiğinde

Nature dergisinin aynı Nisan 2025 sayısında, başka bir çalışma bu düşünceyi bir adım öteye taşıyor. Önceki çalışma, yapay zekanın bir klinisyen gibi akıl yürütme ve güvenilir bir ayırıcı tanı koyma yeteneğini ortaya koyarken, bu çalışma önemli bir ilerleme sunuyor: yapay zeka artık sadece hipotez listeleri üretmiyor, aynı zamanda doktorla diyaloğa girmeyi de öğreniyor.

Buradaki amaç, makineye tıbbi iletişimin özünü öğretmektir: doğru soruları nasıl soracağını, kelimeleri nasıl yeniden ifade edeceğini ve bir konuşma sırasında birden fazla teşhis yolunu nasıl keşfedeceğini bilmek. Bunu yaparken, yapay zeka artık sadece akıl yürütmekle kalmıyor; gerçekten konuşuyor.

Bu yeni diyalog becerisini değerlendirmek için Google Research ve Google DeepMind (Mountain View, Kaliforniya) araştırmacıları, AMIE'nin geliştirilmiş bir sürümünü kullandılar. Model, çoktan seçmeli tıbbi soru ve cevaplar, uzmanlar tarafından yazılmış akıl yürütme, elektronik tıbbi kayıt özetleri ve çok sayıda yazılı tıbbi konuşma içeren geniş bir gerçek dünya veri kümesi üzerinde eğitildi.

Bu derleme, Amerika Birleşik Devletleri'nde on yıl boyunca binden fazla klinisyenle yüz yüze yapılan görüşmelerin yaklaşık 99.000 ses kaydını içeriyordu. Genel tıptan romatolojiye, hematolojiden onkolojiye, iç hastalıkları ve psikiyatriye kadar 51 tıp uzmanlığını ve aralarında tip 2 diyabet, romatoid artrit, astım ve depresyonun da bulunduğu 168 konsültasyon nedenini kapsıyordu. AMIE, öğrenimini geliştirmek için 5.230 farklı hastalığı kapsayan 11.686 simüle edilmiş diyaloğa da maruz bırakıldı. Bu çeşitlilik, muhakeme yelpazesini genişletmesine ve deneyimli bir uygulayıcınınkine yakın bir uyum yeteneği kazanmasına olanak sağladı.

Konuşmaya dayalı yapay zekaya doğru

Google DeepMind araştırmacılarının, tıbbi yapay zeka projesi AMIE ile yeniden üretmeye çalıştıkları şey, klinik akıl yürütmenin bu diyalojik boyutudur. Amaçları: Yapay zekayı pasif bir rolden (sorulara yanıt vermekten) gerçek bir sohbet rolüne taşımak, doktorla ve nihayetinde hastayla aktif olarak diyaloğa girerek tanısal akıl yürütmeyi birlikte inşa edebilen bir role dönüştürmek.

Gerçek bir konsültasyonun aksine, yapay zeka ile etkileşim tamamen metin tabanlıydı: ses yoktu, beden dili yoktu ve bu nedenle klinisyenlerin genellikle gözlemlediği değerli sözel olmayan ipuçlarından yoksundu. Yazarlar, bu eksikliğin hekimler için muhtemelen bir dezavantaj oluşturduğunu kabul ediyorlar. Değerlendirme başlamadan önce, uygulayıcılar senkron metin arayüzüne aşina olmak için iki pilot seansa katıldılar, ancak bunlar ne resmi bir eğitim ne de performanslarını iyileştirmek için tasarlanmış egzersizlerdi.

Deneye üç ülkeden (Kanada, Birleşik Krallık ve Hindistan) hekimler ve uzman değerlendiricilerden oluşan bir panel katıldı. Deney, çok çeşitli tıbbi uzmanlık alanlarını kapsayan 159 klinik senaryoya dayanıyordu. Vakaların çoğunda bir hastalık bulunurken, az bir kısmında herhangi bir patolojisi olmayan bireyler yer aldı; bu da gerçek hayatta, günlük durumlarda gözlemlenenleri yansıtıyordu.

Her etkileşim, klinik vakaları standart bir şekilde canlandırmak üzere eğitilmiş aktörler ( hasta-aktörler ) ile gerçekleşti. Rastgele, çift kör, çapraz geçişli protokol maksimum tarafsızlık sağladı: ne değerlendiriciler ne de katılımcılar bir doktorla mı yoksa bir yapay zekayla mı etkileşimde olduklarını bilmiyorlardı ve konsültasyonların sırası rastgele değişiyordu.

AMIE ile daha doğru ve kapsamlı bir ayırıcı tanı

Sonuçlar kesindir: AMIE, tanı performans kriterlerinin çoğunda pratisyen hekimlerden daha iyi performans göstermektedir. Bu model, hem önerilen ilk tanı (ilk 1 doğruluk) hem de ilk üç tanı (ilk 3 doğruluk) için daha doğru sonuçlar vermektedir. Vakaların %80'inden fazlasında formüle edilen on hipotez arasından doğru tanıyı tespit etmektedir; bu oran, insan klinisyenlerin oranına eşit, hatta daha yüksektir. Yapay Zeka (AI) için önerilen on hipoteze kıyasla, ikinci model ortalama beş hipotez önermiş ve bu da ayırıcı tanıya daha kapsamlı bir yaklaşımı yansıtmaktadır.

Patolojileri doğrulanmış 149 vaka arasında, AMIE, kadın doğum-üroloji hariç hemen hemen tüm uzmanlık alanlarında pratisyen hekimlerden üstün bulunmuştur. Bu farklar özellikle göğüs hastalıkları ve iç hastalıkları alanlarında belirgindir.

Diyalogların kalitesi dikkat çekiciydi.

AMIE, salt tanısal kapasitesinin ötesinde, hasta-aktörle kurduğu diyaloğun kalitesiyle de öne çıktı. Değerlendirmeyi yapan hekimler, her konsültasyonu yaklaşık otuz kritere göre değerlendirdi: teşhisin doğruluğu, önerilerin uygunluğu, açıklık, empati, muhakeme yapısı, fikir alışverişlerinin kalitesi vb. Değerlendirilen 32 kriterden 30'unda yapay zekâ, klinisyenlerden daha iyi performans gösterdi. Ancak araştırmacılar, genellikle daha uzun ve daha iyi yapılandırılmış yanıtlarının kontrol izlenimini pekiştirmiş olabileceğini belirtiyor.

Önemli bir bulgu: Vakaların %60'ından fazlasında, insan değerlendiriciler AMIE liderliğindeki görüşme sürecini tercih etti ve bunun hekimlerinkinden daha akıcı, tutarlı ve hedef odaklı olduğunu değerlendirdi.

Hasta-aktörler ayrıca etkileşimleri dinleme, açıklık, saygı ve empati gibi boyutlarda da değerlendirdi. Yapay zekâ, bu alanda da 26 kriterin 25'inde uygulayıcıları geride bıraktı.

AMIE'nin hem ayırıcı tanı hem de konuşma kalitesi açısından performansı, görevi önemli ölçüde karmaşıklaştıran belirli bir gerekliliğe dayanıyordu: Yapay zekanın önceden var olan verileri analiz etmesi değil, diyalog ilerledikçe ilgili klinik bilgileri kendisi edinmesi gerekiyordu. Dolayısıyla başarısı, akıl yürütme yetenekleri kadar akıcı ve tanı odaklı bir tıbbi bilgi alışverişi yürütme kapasitesine de bağlıydı.

Yapay zeka, tıpkı bir pratisyen hekimin ofisinde yaptığı gibi, sohbet yoluyla akıl yürütüyor

Rakamların ötesinde, çarpıcı olan diyaloğun doğasıdır. AMIE olası hastalıkları sadece listelemekle kalmıyor; aynı zamanda yüksek sesle akıl yürütüyor. Hedef odaklı sorular soruyor: "Ateş ne ​​kadar süredir mevcut?", "Son zamanlarda seyahat ettiniz mi?". Topladığı bilgileri sentezliyor ve belirli hipotezleri neden savunduğunu veya reddettiğini açıklayarak seçimlerini gerekçelendiriyor.

Araştırmacılar, AMIE'nin tıbbi akıl yürütmenin bilişsel yapısını taklit etmeyi öğrendiğini vurguluyor: başlangıç ​​hipotezlerini formüle etmek, eksik verileri aktif olarak aramak ve ardından yeni bilgiler ortaya çıktıkça analizini ayarlamak. Bu konuşma odaklı yaklaşım, sabit cevaplara odaklanan geleneksel yapay zeka modellerinden ayrılıyor. Burada makine artık sadece akıl yürütmekle kalmıyor; tıpkı bir klinisyenin hastayla etkileşimi gibi, konuşarak da akıl yürütüyor.

Sözler ve sınırlamalar arasında

Bu etkileyici sonuçlara rağmen, araştırmacılar iki önemli sınırlamaya dikkat çekiyor: AMIE henüz gerçek hastalarla gerçek dünya koşullarında test edilmedi. Dahası, çalışmanın diyalogları simüle edilmiş senaryolara dayanıyordu ve bu da araştırmacıların gerçek tıbbi konsültasyonların duygusal ve kültürel karmaşıklıklarına verdiği tepkiyi ölçmesini engelliyor.

Herhangi bir büyük dil modeli gibi, yapay zekâ da halüsinasyonlara açık olmaya devam ediyor: Hatalı ifadeler üretebiliyor, ancak bunlar büyük bir özgüvenle formüle edilmiş. Yazarlar ayrıca aşırı gerçekçiliğe karşı da uyarıyor: Değişim ne kadar doğal görünürse, muhatabın bir makine olduğunu unutma riski o kadar artar.

Çalışma ayrıca bir tasarım sınırlamasını daha vurguluyor: Senaryoların çoğunda gerçekten hasta olan hastalar yer alırken, yalnızca küçük bir kısmında sağlıklı bireyler yer alıyor. Ancak günlük uygulamada, klinisyenin işi genellikle bir hastalığı teşhis etmek yerine, hastalık olasılığını elemekten ibarettir.

Tao Tu, Mike Schaekermann, Alan Karthikesalingam, Vivek Natarajan ve meslektaşları, gelecekteki çalışmaların "klinik gerçekliği daha iyi yansıtabilmek için patolojik ve patolojik olmayan durumlar arasında daha dengeli bir dağılıma doğru vaka yelpazesini genişletmesini" teşvik ediyor.

Eşit erişim, tıbbi yapay zekanın bir sonraki zorluğu

Yazarlar, AMIE'nin farklı dil, kültür ve coğrafi bağlamlarda test edilmesinin gerekliliğini vurgulamaktadır. İster İngilizce, ister Fransızca veya başka bir dilde olsun, eşit kalitede bakım sağlamak önemli bir hedef olmaya devam etmektedir.

Bu tür yapay zekaların çeşitli popülasyonlar içerisinde güvenilir bir şekilde işlev görebilme yeteneği, gerçekten sorumlu ve evrensel olarak erişilebilir bir tıbbi yapay zeka inşa etmek için üstesinden gelinmesi gereken en büyük zorluklardan biridir.

Konuşmalı yapay zeka, tıbbi akıl yürütmede bir ortak

Genel olarak, bu çalışma yapay zekânın sağlık hizmetlerindeki evriminde önemli bir dönüm noktasını işaret ediyor. Karar destek araçları ve istatistiksel tanı modellerinin ardından AMIE, gerçek anlamda konuşmaya dayalı tıbbi yapay zekânın yolunu açıyor: klinik akıl yürütmede bir ortak. Hasta görüşmesinin yerini almaktan çok, onun akıllı bir uzantısı haline gelebilir: hekimlerin sorularını yapılandırmalarına, nadir görülen nedenleri değerlendirmelerine veya daha kapsamlı bir tanı özeti oluşturmalarına yardımcı olabilir.

D'importantes étapes restent toutefois à franchir avant de voir un tel outil intégré à la pratique clinique. Il faudra en effet démontrer sa fiabilité, garantir la sécurité des patients et assurer la protection des données, celles des patients comme celles des médecins utilisateurs.

Les auteurs soulignent aussi la nécessité d'un encadrement éthique rigoureux avant tout déploiement. Cela suppose des évaluations approfondies dans divers contextes cliniques, ainsi que le développement de méthodes fiables permettant à l'IA d'estimer son propre degré d'incertitude et de laisser la décision finale à un expert humain. « Ces garde-fous sont indispensables pour éviter une dépendance excessive à l'égard des systèmes d'intelligence artificielle dans la prise de décision médicale », concluent-ils.

Futur binôme médecin-machine

En s'intégrant au cœur du raisonnement clinique, l'intelligence artificielle redéfinira sans doute, dans un futur proche, le rôle du médecin. L'IA assistera le clinicien en lui apportant une aide diagnostique dotée d'une mémoire étendue et d'une vitesse d'analyse inédite. Mais, espérons-le, ce sera toujours au médecin qu'il reviendra de relier les faits et parfois de déceler l'exception.

Entre raisonnement algorithmique et déduction humaine, le diagnostic différentiel pourrait ainsi devenir, dans bien des cas, un travail en binôme.

Daha fazlasını öğrenmek için:

Handler R, Sharma S, Hernandez-Boussard T. The fragile intelligence of GPT-5 in medicine . Nat Med. 2025 Oct 16. doi : 10.1038/s41591-025-04008-8

Dhaliwal G, Hood CM, Manrai AK ve diğerleri. Vaka 28-2025: Karın Ağrısı, Ateş ve Hipoksemi Olan 36 Yaşındaki Bir Erkek . N Engl J Med. 2025 9 Ekim; 393(14): 1421-1434. doi: 10.1056/NEJMcpc2412539

McCoy LGn et al. Assessment of Large Language Models in Clinical Reasoning : A Novel Benchmarking Study . NEJM AI. 2025 ;2(10) : AIdbp2500120. doi : 10.1056/AIdbp2500120

Perlis R, Collins N. Açık Kaynaklı Yapay Zeka Modelleri Karmaşık Vakaları GPT-4 Kadar İyi Tanılayabilir mi? JAMA. 2025 Mayıs 6;333(17):1473-1475. doi: 10.1001/jama.2025.2806

McDuff D, Schaekermann M, Tu T ve diğerleri. Büyük dil modelleriyle doğru ayırıcı tanıya doğru . Doğa. 9 Nisan 2025. doi : 10.1038/s41586-025-08869-4

Tu T, Schaekermann M, Palepu A ve diğerleri. Konuşmaya dayalı teşhis yapay zekasına doğru . Doğa. 9 Nisan 2025. doi : 10.1038/s41586-025-08866-7

Buckley TA, Riccardo Conci R, Brodeur PG, et al. Advancing Medical Artificial Intelligence Using a Century of Cases . [Submitted on 15 Sep 2025]

Goh E, Gallo RJ, Strong E, et al. GPT-4 assistance for improvement of physician performance on patient care tasks : a randomized controlled trial . Nat Med. 2025 Apr ;31(4) :1233-1238. doi : 10.1038/s41591-024-03456-y

Rodman A, Zwaan L, Olson A, Manrai AK. When it comes to benchmarks, humans are the only way . NEJM AI 2025 ;2(4) :AIe2500143. doi : 10.1056/AIe2500143

D'Adderio L, Bates DW. Transforming diagnosis through artificial intelligence . NPJ Digit Med. 2025 Jan 24 ;8(1) :54. doi : 10.1038/s41746-025-01460-1

Mao X, Huang Y, Jin Y, et al. A phenotype-based AI pipeline outperforms human experts in differentially diagnosing rare diseases using EHRs . NPJ Digit Med. 2025 Jan 28 ;8(1) :68. doi : 10.1038/s41746-025-01452-1

Schramm S, Preis S, Metz MC, et al. Impact of Multimodal Prompt Elements on Diagnostic Performance of GPT-4V in Challenging Brain MRI Cases . Radiology. 2025 Jan ;314(1) :e240689. doi : 10.1148/radiol.240689

Raji ID, Daneshjou R, Alsentzer E. It's time to bench the medical exam benchmark . NEJM AI2025 ;2(2) :AIe2401235. doi : 10.1056/AIe2401235

Zhou S, Lin M, Ding S, et al. Explainable differential diagnosis with dual-inference large language models . Npj Health Syst. 2025 ;2(1) :12. doi : 10.1038/s44401-025-00015-6

Chen X, Mao X, Guo Q, et al. RareBench : Can LLMs Serve as Rare Diseases Specialists ? arXiv :2402.06341. Jul 2024

Goh E, Gallo R, Hom J, et al. Large Language Model Influence on Diagnostic Reasoning : A Randomized Clinical Trial . JAMA Netw Open. 2024 Oct 1 ;7(10) :e2440969. doi : 10.1001/jamanetworkopen.2024.40969

Warrier A, Singh R, Haleem A ve diğerleri. Kulak Burun Boğaz Hastalıklarında Büyük Dil Modellerinin Karşılaştırmalı Tanı Kapasitesi . Laringoskop. 2024 Eylül; 134(9) : 3997-4002. doi : 10.1002/lary.31434

Milad D, Antaki F, Milad J, et al. Assessing the medical reasoning skills of GPT-4 in complex ophthalmology cases . Br J Ophthalmol. 2024 Sep 20 ;108(10) :1398-1405. doi : 10.1136/bjo-2023-325053

Barile J, Margolis A, Cason G, et al. Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies . JAMA Pediatr. 2024 Mar 1 ;178(3) :313-315. doi : 10.1001/jamapediatrics.2023.5750

Yang X, Li T, Wang H, et al. M ultiple large language models versus experienced physicians in diagnosing challenging cases with gastrointestinal symptoms . NPJ Digit Med. 2025 Feb 5 ;8(1) :85. doi : 10.1038/s41746-025-01486-5

Kim SH, Wihl J, Schramm S, et al. Human-AI collaboration in large language model-assisted brain MRI differential diagnosis : a usability study . Eur Radiol. 2025 Mar 7. doi : 10.1007/s00330-025-11484-6

Kim SH, Schramm S, Adams LC, et al. Benchmarking the diagnostic performance of open source LLMs in 1933 Eurorad case reports . NPJ Digit Med. 2025 Feb 12 ;8(1) :97. doi : 10.1038/s41746-025-01488-3

Shanmugam SK, Browning DJ. Comparison of Large Language Models in Diagnosis and Management of Challenging Clinical Cases . Clin Ophthalmol. 2024 Nov 12 ;18 :3239-3247. doi : 10.2147/OPTH.S488232

Milad D, Antaki F, Milad J, et al. Assessing the medical reasoning skills of GPT-4 in complex ophthalmology cases . Br J Ophthalmol. 2024 Sep 20 ;108(10) :1398-1405. doi : 10.1136/bjo-2023-325053

Khan MP, O'Sullivan ED. A comparison of the diagnostic ability of large language models in challenging clinical cases . Front Artif Intell. 2024 Aug 5 ;7 :1379297. doi : 10.3389/frai.2024.1379297

Shea YF, Lee CMY, Ip WCT, et al. Use of GPT-4 to Analyze Medical Records of Patients With Extensive Investigations and Delayed Diagnosis . JAMA Netw Open. 2023 Aug 1 ;6(8) :e2325000. doi : 10.1001/jamanetworkopen.2023.25000

Kanjee Z, Crowe B, Rodman A. Karmaşık Bir Tanılama Sorununda Üretken Bir Yapay Zeka Modelinin Doğruluğu . JAMA. 2023 Temmuz 3;330(1) :78-80. doi : 10.1001/jama.2023.8288

Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum . JAMA Intern Med. 2023 Jun 1 ;183(6) :589-596. doi : 10.1001/jamainternmed.2023.1838

Marc Gozlan

Abone
Bu içeriği yeniden kullanın
Le Monde

Le Monde

Benzer Haberler

Tüm Haberler
Animated ArrowAnimated ArrowAnimated Arrow