Yapay zeka teknolojilerinin sağlık alanındaki potansiyeli her geçen gün daha da belirginleşiyor. Son olarak, Harvard Tıp Fakültesi ve Beth Israel Deaconess Tıp Merkezi'nden bilim insanları tarafından yürütülen çığır açıcı bir araştırma, büyük dil modellerinin (LLM) acil servis ortamında insan doktorlardan daha doğru teşhisler koyabileceğini ortaya koydu. Science dergisinde geçtiğimiz günlerde yayımlanan bu çalışma, tıp dünyasında geniş yankı uyandırdı.
Yapay Zeka ve İnsan Teşhisleri Karşı Karşıya
Araştırma ekibi, OpenAI'nin o1 ve 4o modellerinin performansını, gerçek acil servis vakaları üzerinden insan doktorlarla karşılaştırdı. Çalışmanın en dikkat çekici bölümü, Beth Israel acil servisine başvuran 76 hastanın teşhis süreçleri üzerine odaklandı. Burada, iki deneyimli acil servis doktorunun koyduğu teşhisler ile yapay zeka modellerinin ürettiği teşhisler, üçüncü bir doktor ekibi tarafından körlemesine değerlendirildi. Değerlendirmeyi yapan doktorlar, hangi teşhisin insandan, hangisinin yapay zekadan geldiğini bilmiyordu.
Çalışmanın bulguları oldukça çarpıcıydı: “Her teşhis dokunuş noktasında, o1 modeli ya iki acil servis doktorundan ve 4o modelinden nominal olarak daha iyi performans gösterdi ya da onlarla aynı seviyede kaldı.” Özellikle ilk teşhis noktasında, yani hastanın acil servise ilk geldiği ve en az bilgiyle en hızlı kararın verilmesi gereken triyaj aşamasında, yapay zekanın üstünlüğü daha da belirginleşti. Bu aşamada, hastanın durumu hakkında en az bilgi varken doğru karar verme aciliyeti en yüksekti.
Veri İşlemeden Doğrudan Karşılaştırma
Harvard Tıp Fakültesi'nin çalışma hakkındaki basın bülteninde, araştırmacılar verileri “hiçbir şekilde ön işlemediklerini” vurguladı. Yapay zeka modellerine, her teşhis anında elektronik tıbbi kayıtlarda mevcut olan aynı bilgiler sunuldu. Bu koşullar altında, o1 modeli triyaj vakalarının %67'sinde “tam veya çok yakın teşhis” sunmayı başardı. Karşılaştırma için, doktorlardan biri vakaların %55'inde, diğeri ise %50'sinde doğru veya yakın teşhis koyabildi.
Çalışmanın baş yazarlarından ve Harvard Tıp Fakültesi'ndeki bir yapay zeka laboratuvarının başkanı olan Arjun Manrai, basın bülteninde, “Yapay zeka modelini neredeyse her kıyaslamaya karşı test ettik ve hem önceki modelleri hem de doktor temel çizgilerimizi geride bıraktı” ifadelerini kullandı.
Gelecek ve Sorumluluk Tartışmaları
Ancak araştırmacılar, bu bulguların yapay zekanın acil serviste gerçek hayatı tehdit eden kararlar vermeye hazır olduğu anlamına gelmediğini de açıkça belirtti. Bunun yerine, sonuçların “bu teknolojileri gerçek dünya hasta bakım ortamlarında değerlendirmek için acil prospektif denemelere ihtiyaç olduğunu” gösterdiğini vurguladılar. Ayrıca, mevcut çalışmanın sadece metin tabanlı bilgilerle modellerin nasıl performans gösterdiğini incelediğini ve metin dışı girdilerle akıl yürütmede mevcut temel modellerin daha sınırlı olabileceğini eklediler.
Çalışmanın baş yazarlarından Beth Israel doktoru Adam Rodman, Guardian'a verdiği demeçte, yapay zeka teşhisleri konusunda “şu anda resmi bir hesap verebilirlik çerçevesi olmadığını” ve hastaların hala “hayat veya ölüm kararlarında ve zorlu tedavi kararlarında kendilerine rehberlik etmesi için insanları istediğini” belirtti. Bu önemli araştırma, yapay zekanın tıp alanındaki devrim niteliğindeki potansiyelini gözler önüne sererken, etik ve pratik uygulama konularında daha fazla çalışmaya ihtiyaç duyulduğunu da gösteriyor.