Bu soruyu en gelişmiş yapay zekâlar bile yanıtlayamadı! (Oysa oldukça kolay)

Kâr amacı gütmeyen suni zekâ araştırma kuruluşu LAION’daki bilim adamlarının yazıya döktüğü yeni ve etkileyici bir makale en gelişmiş büyük dil modellerinin (LLM) dahi kolay bir mantık sorusu karşısında afalladığını ortaya koyuyor.

Popüler suni zekâ (YZ) modelleri, üretici şirketlerin sık sık vurguladığı benzer biçimde hakikaten ‘ileri düzeyde’ mi? Bulgular, bu mevzuda şüpheleri bununla beraber getiriyor.

Hemen hemen yargıcı değerlendirmesinden geçmemiş olan yazı, suni zekâyı şaşırtan suali ‘Alice Harikalar Diyarında’ özetlemek gerekirse AIW problemi olarak adlandırıyor. Araştırmacılar problemin birkaç değişik versiyonunu kullandı. Mesela X ve Y sayısı yada birkaç talep daha içerecek şekilde istem dili değiştirildi. Fakat problemi çözmek için ihtiyaç duyulan temel muhakeme süreci aynı kaldı. Bu kolay mantık sorusu şöyleki:

Alice’in [X] adam kardeşi var ve ek olarak [Y] kız kardeşi var. Alice’in adam kardeşinin kaç kız kardeşi vardır?

YANIT: Alice’in kaç kız kardeşi var ise + Alice’in kendisi. Kısaca Alice’in üç adam ve bir kız kardeşi var ise her adam kardeşin iki kız kardeşi olacaktır. Gördüğünüz suretiyle oldukça kolay bir sual.

Sadece araştırmacılar suali önde gelen tüm suni zekâ modellerinde, kısaca;

  • OpenAI’ın GPT-3, GPT-4 ve GPT-4o
  • Anthropic’in Claude 3 Opus
  • Google’ın Gemini
  • Meta’nın Llama
  • Mistral AI’nin Mextral
  • Mosaic’in Dbrx
  • Ve Cohere’in Command R+ modelinde kontrol etti.

Netice olarak, modellerin neredeyse hepsi sınıfta kaldı. Bir tek GPT-4o standart okul puanlarına bakılırsa teknik olarak ‘geçer’ diyebileceğimiz bir not aldı. Ve problem temel yanlışlıkların da ötesine geçti: YZ modelleri hiçbir anlam ifade etmeyen garip ve hatalı çözüm yollarını detaylandırdı. İşin daha da garip tarafı sonucun hatalı olduğu söylendiğinde meydana getirilen yanlış ikiye katlandı.

Araştırma YZ modellerinin iyi mi kontrol edilmiş olduğu, değerlendirildiği ve elbet pazarlandığı hakkında bazı mühim soruları gündeme getiriyor. (Fotoğraf: Getty Images)

Araştırmalarında insanoğlu tarafınca kolayca çözülebilen ve kolay bir halde formüle edilmiş problemi kullanan LAOIN ekibine bakılırsa, bu durum ‘geniş ölçeklerde eğitilen son teknoloji modellerin işlev ve muhakeme kabiliyetlerinde çarpıcı bir problemi’ gözler önüne seriyor. Ekibin bulgulara ilişkin makalesinde, “Modellerin net bir halde yanlış olan yanıtların akla yatkın görünmesini sağlamak için konfabülasyonu çağrıştıran anlam ifade etmeyen bir ‘akıl yürütme’ biçimi sunması sebebiyle ortaya çıkan tablo trajik” ifadeleri içeriyor. (Bakalım konfabülasyon YZ jargonunda yapay zekânın en büyük sıkıntısını yansıtan halüsinasyonun pabucunu dama atacak mı? )

Araştırma, AIW probleminin değişik varyasyonlarını eline yüzüne bulaştıran YZ modellerinden gelen düzinelerce örnek içeriyor. Meta’nın Llama 3’ü ile meydana getirilen ve AIW sorusunun en kolay versiyonunun sorulmuş olduğu şu örneği ele alalım.

SORU: Alice’in dört adam kardeşi ve bir de kız kardeşi var. Alice’in adam kardeşinin kaç kız kardeşi var?

YANIT: Klasik bir yanal düşünme bulmacası! Hadi başlamış olalım:

  • Alice’in dört adam kardeşi var.
  • Alice’in bir de kız kardeşi (kendisi) var.
  • Kısaca, Alice’in adam kardeşlerinin her birinin bir kız kardeşi var, o da Alice’in kendisi!
  • Dolayısıyla yanıt şu: Alice’in adam kardeşlerinin her birinin bir kız kardeşi var.

Gördüğünüz benzer biçimde Llama kendinden aşırı güvenilir fakat maalesef verdiği cevap doğru değil. Probleminin cevabı elbet iki kız kardeş.

Bir suni zekâ halüsinasyon gördüğünde bu yanlış informasyon üretiyor anlamına geliyor. İllüstrasyon: Getty Images

Şimdi de probleminin daha karmaşık bir versiyonuna örnek olarak Claude 3 Opus ile olan teste bakalım.

SORU: Alice’in 4 kız kardeşi ve ek olarak 1 adam kardeşi var. Alice’in adam kardeşinin kaç kız kardeşi var? Bu soruya yanıt vermeden ilkin dikkatlice düşün ve doğru çözüme gidiş yolunu herhangi bir hata olmaması için iki kez denetim et.

YANIT: Bu problemi adım adım çözelim:

1. Alice’in dört kız ve bir adam kardeşi var.

2. Alice’in adam kardeşi Alice ile aynı aileden.

3. Alice’in tüm kız kardeşleri bununla beraber adam kardeşinin de kız kardeşi.

4. Dolayısıyla Alice’in adam kardeşinin de Alice ile aynı sayıda kız kardeşi var, kısaca dört.

İki kez denetim ettim ve herhangi bir hata bulamadım. Yanıt: Alice’in adam kardeşinin dört kız kardeşi var.

Model iki kez denetim ettiğini belirtmiş fakat cevap gene yanlış. Doğru yanıt doğal ki beş kız kardeş olmalıydı.



İlginizi çekebilir: Google’ın YZ özetleri, pizzanıza YAPIŞTIRICI koymanızı öneriyor! (Yeni arama deneyimine hoş geldiniz)



Epey dikkat çeken bir başka nokta ise bulguların, YZ modellerinin etkinliğini ölçmek için kullanılan sanayi kriterleriyle (kısaca standart hâline gelmiş kontrol sonuçlarıyla) arasındaki büyük fark. Araştırmaya bakılırsa YZ modellerinin karnesi şöyleki:

  • OpenAI’ın yeni GPT-4o modeli AIW sorusunu yüzde 65 oranında doğru yanıtlayarak en yüksek başarıyı elde etti.
  • Onu yüzde 43 başarı oranıyla Claude 3 Opus takip etti.
  • Meta’nın en başarı göstermiş olan Llama modeli Llama 2-7b yüzde 30’da kaldı. (Araştırmacılar birkaç Llama modelini kontrol etti.)
  • Google’ın Gemini Pro’su yüzde 0,8 ile kötü hâlde düşük bir performans gösterdi.

Araştırmacılar YZ’nin sorun çözme kapasitesini değerlendirmek için tasarlanan ve MMLU isminde olan bir teste bilhassa dikkat çekiyor. GPT-4o, Claude 3 Opus, Llama 2-7b ve Gemini Pro, MMLU testinden sırasıyla yüzde 88, yüzde 87, yüzde 64 ve yüzde 72 puan aldı. Bunlar AIW sonuçlarında elde edilenlerden fazlaca değişik sonuçlar. Bundan dolayı bilim adamlarına bakılırsa dil modellerinin sorun çözme becerilerini değerlendirdiğimiz süreçleri tekrardan gözden geçirmemizde yarar var.

Fotoğraf: Modellerin en başarılısı ‘eh işte’ diyebileceğimiz bir başarı oranı elde etti. (Fotoğraf: Getty Images)

Makalede bu mevzuya dikkat çeken bölümde, “Kontrol edilen tüm modeller, mantık yürütme işlevini kontrol ettiğini iddia eden çeşitli standart yöntemlerde yüksek puanlar alıyor. Sadece gözlemlerimiz bu testlerin söz mevzusu modellerin düzeyini doğru yansıtmadığını gösteriyor” denildi.

YZ modellerinin devamlı övülen kabiliyetlerini sorgulayan başkaları da var. Örnek olarak MIT’de doktora talibi olan Eric Martínez, OpenAI’ın ‘GPT-4 modelinin baro sınavında ilk yüzde 10’a girmiş olduğu’ yönündeki iddiasını sorgulayan uzunca bir yazı yayınladı. Martínez’in analizine bakılırsa GPT-4’ün puanı yüzde 69 yüzdelik dilimin altında kaldı. Makalesinde değerlendirme sürecindeki belirgin eksikliklere dikkat çeken Martínez, OpenAI’ın yazılı kompozisyon puanlarını derecelendirmek için ulusal baro yönergelerini kullanmadığını, bunun yerine YZ modelinin neticelerini Maryland’deki hukuk öğrencilerinin bazı ‘iyi’ puanlarıyla karşılaştırdığını tespit etti.

LAOIN ekibinin bu yeni makalesi hemen hemen yargıcı değerlendirmesinden geçmedi. Buna karşın, YZ modellerinin iyi mi kontrol edilmiş olduğu, değerlendirildiği ve elbet pazarlandığı hakkında bazı mühim soruları gündeme getiriyor.


Futurism makalesinden Türkçeleştirildi.

(Toplam: 1, Bugün: 1 )

Site Footer