Apple’ın yapmış olduğu araştırmaya bakılırsa Büyük Dil Modelleri (LLM’ler), göründükleri kadar akıllı olmayabilir.
OpenAI, Google, Meta ve öteki şirketlerin LLM’leri, büyüleyici muhakeme kabiliyetleriyle ön plana çıkıyor. Sadece araştırmalar, sözde zekalarının “gerçek mantıksal muhakeme”den ziyade “sofistike örüntü eşleştirmeye” daha yakın olabileceğini gösteriyor. Hatta buna OpenAI’ın yeni gelişmiş muhakeme modeli o1 de dahil.
Muhakeme kabiliyeti için en yaygın kontrol GSM8K. Sadece bu kontrol oldukça popüler olduğundan, veri kirliliği riski barındırıyor. Doğrusu LLM’ler, testin cevaplarını daha ilkin bu testle ilgili bilgiler edindikleri ve cevaplar üstüne eğitildikleri için bilebilirler. Bu da onların bir nevi “kopya çekmiş olduğu” anlamına geliyor.
Muhakeme kabiliyetini kontrol edebilmek için meydana getirilen araştırmada GSM-Symbolic adında olan yeni bir vasıta kullanıldı. Bu vasıta, muhakeme problemlerinin temelini tutarak, adlar, sayılar, karmaşıklık benzer biçimde değişkenleri değiştiriyor ve alakasız bilgiler de ekleyebiliyor. Bu şekilde araştırma, LLM performanslarında “kırılganlık” ortaya çıkarıldı. Araştırmada içinde OpenAI’ın o1 ve GPT-4o, Google’ın Gemma 2 ve Meta’nın Llama 3’ü dahil 20’nin üstünde model kontrol edildi. Her modelde değişkenler değiştirildiğinde modellerin performansları düştü.
İsimler ve değişkenler değiştirildiğinde, testin doğruluk yüzdesi birkaç puan düşüş gösterdi. Araştırmacılar, OpenAI’ın modellerinin öteki açık kaynak modellere bakılırsa daha iyi performans gösterdiğini de belirtiyor. Sadece aradaki fark “dikkatsizlik edilemez” seviyede görünmüyor. Doğrusu gerçek anlamda büyük bir performans farkı görülmedi. Bununla beraber, araştırmacılar karışıma “görünüşte ilgili sadece sonuçta önemsiz ifadeler” eklediğinde işler hakikaten garip hale geldi.
LLM’lerin gerçek muhakemeden fazlaca, kalıp eşleştirmeye dayandığı hipotezini kontrol etmek için emek verme, modellerin iyi mi tepki vereceğini görmek amacıyla matematik problemlerine gereksiz ifadeler ekledi. Mesela, “Oliver Cuma günü 44 kivi topluyor. Sonrasında Cumartesi günü 58 kivi topluyor. Pazar günü, Cuma günü toplamış olduğu kivi sayısının iki katını topluyor, sadece bunlardan beş tanesi averajdan birazcık daha ufak. Oliver’ın kaç kivisi var?”
Netice olarak, genel olarak performansta mühim bir düşüş yaşandı. OpenAI’nin o1 modelinin ön seyretme sürümü, yüzde 17,5’lik bir doğruluk düşüşüyle en iyi performansı gösterdi. Bu hala oldukça fena, sadece yüzde 65 daha fena performans gösteren Microsoft’un Phi 3 modeli kadar fena değil.
Emek harcama, kivi örneğinde, LLM’lerin kivi boyutunun problemle ilgisiz bulunduğunu anlamadan beş ufak kiviyi denklemden çıkarma eğiliminde olduklarını söylemiş oldu. Bu durum, “modellerin anlamlarını tam olarak anlamadan ifadeleri işlemlere dönüştürme eğiliminde bulunduğunu” göstermekte ki bu da araştırmacıların, LLM’lerin terimi doğuştan idrak etmek yerine muhakeme problemlerinde kalıplar aradıkları hipotezini doğrular cinsten.
Modellerin alakasız bilgiler içeren karşılaştırma ölçütü üstünde kontrol edilmesi, araştırmaya bakılırsa “LLM’lerin matematiksel kavramları hakikaten anlama ve sorun çözme için ilgili detayları ayırt etme becerilerindeki eleştiri bir kusuru ortaya çıkarıyor.” Bununla beraber, bu çalışmanın yazarlarının Google, Meta ve hatta OpenAI ile büyük bir rakip olan Apple için çalıştıklarını belirtmek de gerekiyor – Apple ve OpenAI’nin bir ortaklığı olmasına karşın, Apple da kendi suni zeka modelleri üstünde çalışıyor.
Doğal bununla beraber, LLM’lerin resmi muhakeme becerilerindeki belirgin eksiklik göz ardı edilecek cinsten değil. Sonunda, suni zeka mevzusuna sıhhatli bir şüpheyle yaklaşmak en doğrusu benzer biçimde görünüyor.
Cecily Mauran’ın haberini Özgür Yıldız Türkçeleştirdi