Boston’daki Beth Israel Deaconess Tıp Merkezi’nde iç hastalıkları uzmanı olan Dr. Adam Rodman, suni zekâ kullanılarak geliştirilen söyleşi botlarının doktorların hastalıkları teşhis etmesine destek olacağını umuyordu.
Fakat yanılmıştı.
Bunun yerine, Dr. Rodman’ın tasarımına destek olduğu bir çalışmada, geleneksel kaynakların yanı sıra ChatGPT-4’ü kullanmalarına izin verilen doktorlar, bota erişimi olmayan doktorlardan bir tek birazcık daha iyi performans gösterdi. Ve araştırmacıları şaşırtan bir halde, ChatGPT tek başına doktorlardan daha iyi performans gösterdi. Dr. Rodman, bu gelişme karşısında şunu söyleyebildi: “Şoke oldum”
OpenAI şirketinin söyleşi botu ChatGPT, bir olay raporundan tıbbi bir durumu teşhis ederken ve gerekçesini açıklarken averaj yüzde 90 puan aldı. Söyleşi botunu kullanmak suretiyle rastgele atanan doktorlar averaj yüzde 76 puan aldı. Kullanmamaları için rastgele atananlar ise averaj yüzde 74 puan aldı.
Emek verme, ChatGPT’nin üstün performansından daha fazlasını gösterdi: Bir söyleşi botu potansiyel olarak daha iyi bir teşhis önerse dahi doktorların kimi zaman kendi koydukları teşhise olan sarsılmaz itimatını ortaya çıkardı.
Ve emek harcama, doktorların işleri için suni zekâ araçlarına maruz kalmalarına karşın, oldukca azının söyleşi botlarının kabiliyetlerinden iyi mi yararlanacağını bildiğini gösterdi. Netice olarak, suni zekâ sistemlerinin karmaşık teşhis sorunlarını çözme ve teşhisleri için açıklamalar sunma becerilerinden yararlanamadılar.
Dr. Rodman, suni zekâ sistemlerinin “doktorlara destek” olması ve teşhisler mevzusunda kıymetli ikinci görüşler sunması icap ettiğini söylemiş oldu.
Sadece bu potansiyelin gerçekleşmesi için daha gidilecek yol var şeklinde görünüyor.
Olay geçmişi, olay geleceği
Birkaç büyük Amerikan hastane sistemi vesilesiyle işe alınan asistan ve uzman doktorların bir karışımı olan 50 doktoru içeren gözlem, geçtiğimiz ay JAMA Network Open dergisinde gösterildi.
Deneklere altı olay öyküsü verildi. Arkasından tanıları önerme ve niçin tercih ettiklerini yada elediklerini izahat becerilerine gore notlandırıldılar. Verdikleri notlar içinde teşhisi doğru koyma da vardı.
Not verenler, ChatGPT’li bir doktordan mı, ChatGPT’siz bir doktordan mı yoksa ChatGPT’nin kendisinden mi geldiğini bilmeden bir tek iştirakçilerin cevaplarını gören tıp uzmanlarıydı.
Çalışmada kullanılan olay öyküleri gerçek hastalara dayanıyor. Bu olay öyküleri, 1990’lardan beri araştırmacılar tarafınca kullanılan 105 vakalık bir setin parçası. Vakaların bilgili olarak asla yayınlanmamasından dolayı, tıp öğrencileri herhangi bir ön bilgiye haiz olmadan bu vakalar üstünde kontrol edilebilmiş. Bu bununla beraber ChatGPT’nin bunlar üstünde eğitilemeyeceği anlamına da geliyordu.
Çalışmanın neleri içerdiğini göstermek için araştırmacılar, doktorların kontrol edilmiş olduğu altı vakadan birini ve bu vakada yüksek puan alan ve düşük puan alan bir doktorun kontrol sorularına verdiği yanıtları yayınladılar.
Bu kontrol vakası, yürüdüğünde belinde, kalçalarında ve baldırlarında şiddetli ağrı olan 76 yaşlarında bir hastayı içeriyordu. Ağrı, bir koroner arteri genişletmek için balon anjiyoplasti ile tedavi edildikten birkaç gün sonrasında başlamıştı. İşlemden sonrasında 48 saat süresince kan inceltici heparin ile tedavi edildi.
Adam kendini alev ateş ve bitkin hissettiğinden yakınıyordu. Kardiyoloğu yeni bir anemi başlangıcına ve kanında nitrojen ve öteki böbrek atık ürünlerinin biriktiğine işaret eden laboratuvar emek harcamaları yapmıştı. Adam on yıl ilkin kalp hastalığı sebebiyle bypass ameliyatı geçirmişti.
Olay özeti, hastanın fizyolojik muayenesinin ayrıntılarını içermeye devam etti ve arkasından laboratuvar kontrol neticelerini açığa çıkardı.
Doğru tanı kolesterol embolisiydi. Doğrusu bu, kolesterol parçalarının arterlerdeki plaktan koparak kan damarlarını tıkadığı bir durum.
Katılımcılardan üç ihtimaller içinde teşhis ve her biri için destekleyici kanıtlar istenmiş. Ek olarak her bir ihtimaller içinde tanı için bunu desteklemeyen yada beklenen sadece mevcut olmayan bulguları da belirtmeleri istenmiş.
Katılımcılardan ek olarak nihai bir teşhis koymaları, sonrasında da teşhis sürecinde atacakları en fazla üç ek adımı belirtmeleri istenmiş.
Gösterilen olay için konulmuş olan teşhis şeklinde, çalışmadaki öteki beş olay için konulmuş olan teşhislerin de anlaşılması kolay değildi. Sadece neredeyse asla duyulmayacak kadar ender de değillerdi. Gene de doktorlar averaj olarak söyleşi robotundan daha kötüydü.
Araştırmacılar, bu esnada neler bulunduğunu sordular.
Yanıt, doktorların bir teşhise iyi mi karar verdikleri ve suni zekâ şeklinde bir aracı iyi mi kullandıkları sorularına dayanıyor şeklinde görünüyor.
Makinenin içindeki hekim
O halde doktorlar hastalara iyi mi teşhis koyuyor?
Brigham and Women’s Hospital’da tıp tarihçisi olarak vazife icra eden ve araştırmada yer almayan Dr. Andrew Lea, probleminin “doktorların iyi mi düşündüğünü hakikaten bilmememiz” bulunduğunu söylemiş oldu.
Dr. Lea, doktorların bir teşhise iyi mi vardıklarını açıklarken “sezgi” ya da “deneyimlerime dayanarak” dediklerini söylemiş oldu.
Bu tür bir belirsizlik, hekim şeklinde düşünebilen bilgisayar programları halletmeye çalışan araştırmacıları onlarca senedir zorluyor.
Bu arayış neredeyse 70 yıl ilkin başladı.
Dr. Lea, “Bilgisayarlar ortaya çıktığından beri, onları teşhis koymak için kullanmaya çalışan insanoğlu vardı” dedi.
En iddialı girişimlerden biri 1970’lerde Pittsburgh Üniversitesi’nde başladı. Buradaki bilgisayar bilimcileri, tıp fakültesinin iç hastalıkları kısmı başkanı olan ve usta bir teşhis uzmanı olarak tanınan Dr. Jack Myers’ı işe aldılar. Dr. Jack Myers’ın fotoğrafik bir hafızası vardı. Haftanın 20 saatini tıp kütüphanesinde geçirerek tıp alanında malum her şeyi öğrenmeye çalışıyordu.
Dr. Myers’a vakaların tıbbi ayrıntıları veriliyor ve o da teşhisler üstünde düşünürken mantığını açıklıyordu. Bilgisayar bilimcileri onun mantık zincirlerini koda dönüştürdü. Sonuçta ortaya çıkan INTERNIST-1 adlı program 500’den fazla hastalık ve ortalama 3.500 hastalık emaresi içeriyordu.
Araştırmacılar programı kontrol etmek için New England Journal of Medicine’dan vakalar verdiler. Dr. Rodman, “Bilgisayar hakikaten iyi iş çıkardı. Performansı muhtemelen bir insanoğlunun yapabileceğinden daha iyiydi.” dedi.
Sadece INTERNIST-1 hiçbir vakit tutmadı. Kullanımı zordu, tanı koymak için ihtiyaç duyulan detayları vermek bir saatten fazla vakit alıyordu. Ve programın yaratıcıları, programın mevcut halinin klinik uygulamalar için yeterince güvenilir olmadığını söylediler.
Araştırmalara devam edildi. 1990’ların ortalarında tıbbi teşhis koymaya çalışan ortalama 5-6 bilgisayar programı vardı. Hiçbiri yaygın şekilde kullanılmadı.
Dr. Rodman, “Sorun bir tek kullanıcı dostu olması değil, doktorların buna güvenmesi de gerekiyordu” dedi.
Doktorların iyi mi düşündüğü mevzusundaki belirsizlikle beraber, uzmanlar bunu önemsemeleri gerekip gerekmediğini sormaya başladılar. Bilgisayar programlarını insanların yapmış olduğu şeklinde teşhis koyacak şekilde tasarlamaya çalışmak ne kadar önemliydi?
Dr. Lea, “Bir bilgisayar programının insan muhakemesini ne kadar öykünmek etmesi gerektiği mevzusunda tartışmalar vardı. Niçin bilgisayarın gücüne gore oynamıyoruz?” dedi.
Bilgisayar karar yolunun net bir açıklamasını yapamayabilir sadece teşhisi doğru koyuyorsa bunun bir önemi var mı?
ChatGPT şeklinde büyük dil modellerinin ortaya çıkmasıyla beraber sohbetin yapısı da değişti. Bir doktorun düşüncesini öykünmek etmek için açık bir girişimde bulunmazlar; teşhis kabiliyetleri yalnızca dili tahmin etme kabiliyetlerinden gelir.
Stanford’da hekim ve bilgisayar bilimcisi olan ve yeni çalışmanın yazarlarından kabul edilen Dr. Jonathan H. Chen, “Söyleşi arayüzü çığır açan bir uygulama. Tüm bir vakayı bilgisayara aktarabiliyoruz. Birkaç yıl öncesine kadar bilgisayarlar dili anlamıyordu.” dedi.
Sadece birçok hekim bu potansiyelden faydalanmıyor olabilir.
Operatör hatası
Dr. Rodman yeni çalışmanın neticeleri karşısında yaşamış olduğu ilk şokun arkasından verileri birazcık daha derinlemesine incelemeye ve doktorlar ile ChatGPT arasındaki mesajların gerçek kayıtlarına bakmaya karar verdi. Doktorlar söyleşi botunun teşhislerini ve gerekçelerini görmüş olmalıydı. Peki söyleşi botunu kullananlar niçin daha iyisini yapmadı?
Doktorların, teşhisleriyle çelişen bir şeye işaret ettiğinde söyleşi bot tarafınca çoğu zaman ikna edilmedikleri ortaya çıktı. Bunun yerine, doğru teşhis mevzusunda kendi fikirlerine bağlı kalma eğilimindeydiler.
Dr. Rodman, “Suni zekâ onlara kabul etmedikleri şeyler söylediğinde suni zekâyı dinlemediler.” dedi.
Rotterdam’daki Erasmus Tıp Merkezi’nde klinik muhakeme ve teşhis hatası üstüne çalışan ve çalışmaya dahil olmayan Laura Zwaan, bunun mantıklı bulunduğunu söylemiş oldu.
İnsanlar genel anlamda haklı olduklarını düşündüklerinde kendilerine aşırı güvenirler.
Sadece başka bir problem daha vardı: Doktorların bir çok, bir söyleşi botunu tam anlamıyla iyi mi kullanacaklarını bilmiyordu.
Dr. Chen, doktorların söyleşi kayıtlarına baktığında, yönlendirilmiş sorular için bir arama motoru şeklinde davrandıklarını fark ettiğini söylemiş oldu: “Siroz kanser için bir risk faktörü müdür? Göz ağrısı için ihtimaller içinde teşhisler nedir?“
“Doktorların yalnızca bir kısmı, tüm olay geçmişini söyleşi robotuna kopyalayıp yapıştırabileceklerini ve ondan tüm soruya kapsamlı bir cevap vermesini isteyebileceklerini fark etti.” diyen Dr. Chen, konuşmasını şu şekilde tamamladı:
“Doktorların bir tek bir kısmı söyleşi botunun şaşırtıcı derecede akıllı ve kapsamlı cevaplar üretebildiğini görmüş oldu.”
Kaynak: NYTimes / Yaratı Şahin tarafınca Türkçeleştirildi