Kategoriler: Genel

Apple araştırdı: Yapay zekâ modellerindeki sorun ne? (Spoiler: Akıllı değiller pek)

Apple’ın yapmış olduğu araştırmaya bakılırsa Büyük Dil Modelleri (LLM’ler), göründükleri kadar akıllı olmayabilir.

OpenAI, Google, Meta ve öteki şirketlerin LLM’leri, büyüleyici muhakeme kabiliyetleriyle ön plana çıkıyor. Sadece araştırmalar, sözde zekalarının “gerçek mantıksal muhakeme”den ziyade “sofistike örüntü eşleştirmeye” daha yakın olabileceğini gösteriyor. Hatta buna OpenAI’ın yeni gelişmiş muhakeme modeli o1 de dahil.

Muhakeme kabiliyeti için en yaygın kontrol GSM8K. Sadece bu kontrol oldukça popüler olduğundan, veri kirliliği riski barındırıyor. Doğrusu LLM’ler, testin cevaplarını daha ilkin bu testle ilgili bilgiler edindikleri ve cevaplar üstüne eğitildikleri için bilebilirler. Bu da onların bir nevi “kopya çekmiş olduğu” anlamına geliyor.

Muhakeme kabiliyetini kontrol edebilmek için meydana getirilen araştırmada GSM-Symbolic adında olan yeni bir vasıta kullanıldı. Bu vasıta, muhakeme problemlerinin temelini tutarak, adlar, sayılar, karmaşıklık benzer biçimde değişkenleri değiştiriyor ve alakasız bilgiler de ekleyebiliyor. Bu şekilde araştırma, LLM performanslarında “kırılganlık” ortaya çıkarıldı. Araştırmada içinde OpenAI’ın o1 ve GPT-4o, Google’ın Gemma 2 ve Meta’nın Llama 3’ü dahil 20’nin üstünde model kontrol edildi. Her modelde değişkenler değiştirildiğinde modellerin performansları düştü.

İsimler ve değişkenler değiştirildiğinde, testin doğruluk yüzdesi birkaç puan düşüş gösterdi. Araştırmacılar, OpenAI’ın modellerinin öteki açık kaynak modellere bakılırsa daha iyi performans gösterdiğini de belirtiyor. Sadece aradaki fark “dikkatsizlik edilemez” seviyede görünmüyor. Doğrusu gerçek anlamda büyük bir performans farkı görülmedi. Bununla beraber, araştırmacılar karışıma “görünüşte ilgili sadece sonuçta önemsiz ifadeler” eklediğinde işler hakikaten garip hale geldi.

LLM’lerin gerçek muhakemeden fazlaca, kalıp eşleştirmeye dayandığı hipotezini kontrol etmek için emek verme, modellerin iyi mi tepki vereceğini görmek amacıyla matematik problemlerine gereksiz ifadeler ekledi. Mesela, “Oliver Cuma günü 44 kivi topluyor. Sonrasında Cumartesi günü 58 kivi topluyor. Pazar günü, Cuma günü toplamış olduğu kivi sayısının iki katını topluyor, sadece bunlardan beş tanesi averajdan birazcık daha ufak. Oliver’ın kaç kivisi var?”

Netice olarak, genel olarak performansta mühim bir düşüş yaşandı. OpenAI’nin o1 modelinin ön seyretme sürümü, yüzde 17,5’lik bir doğruluk düşüşüyle en iyi performansı gösterdi. Bu hala oldukça fena, sadece yüzde 65 daha fena performans gösteren Microsoft’un Phi 3 modeli kadar fena değil.

Emek harcama, kivi örneğinde, LLM’lerin kivi boyutunun problemle ilgisiz bulunduğunu anlamadan beş ufak kiviyi denklemden çıkarma eğiliminde olduklarını söylemiş oldu. Bu durum, “modellerin anlamlarını tam olarak anlamadan ifadeleri işlemlere dönüştürme eğiliminde bulunduğunu” göstermekte ki bu da araştırmacıların, LLM’lerin terimi doğuştan idrak etmek yerine muhakeme problemlerinde kalıplar aradıkları hipotezini doğrular cinsten.

Modellerin alakasız bilgiler içeren karşılaştırma ölçütü üstünde kontrol edilmesi, araştırmaya bakılırsa “LLM’lerin matematiksel kavramları hakikaten anlama ve sorun çözme için ilgili detayları ayırt etme becerilerindeki eleştiri bir kusuru ortaya çıkarıyor.” Bununla beraber, bu çalışmanın yazarlarının Google, Meta ve hatta OpenAI ile büyük bir rakip olan Apple için çalıştıklarını belirtmek de gerekiyor – Apple ve OpenAI’nin bir ortaklığı olmasına karşın, Apple da kendi suni zeka modelleri üstünde çalışıyor.

Doğal bununla beraber, LLM’lerin resmi muhakeme becerilerindeki belirgin eksiklik göz ardı edilecek cinsten değil. Sonunda, suni zeka mevzusuna sıhhatli bir şüpheyle yaklaşmak en doğrusu benzer biçimde görünüyor.


Cecily Mauran’ın haberini Özgür Yıldız Türkçeleştirdi

Bul-Tikla

Son Yazılar

Pala Ağaç Sanayi – 0 266 662 11 64 – – Firma Bilgileri – firmamibul.com

Pala Ağaç Sanayi ADVERTISEMENT Firma bilgileri Fax : - Gsm : - Telefon : +90…

2 saat ago

Sanayi firmaları telefon ve iletişim bilgileri

Esmert Makina ve Kesici Bıçak Sanayi Mertol Duran, OSB sanayiciler sitesi V blok no:5 Telefon…

2 saat ago

iPhone 17 Pro’ya önümüzdeki yıl gelmesi beklenen 7 yeni özellik

iPhone 17 Pro ve Pro Max, bilhassa kamera performansı, işlemci gücü ve RAM kapasitesi açısından…

4 saat ago

Şifreniz ‘Minnos1234’, Soğuk Savaş dönemi nükleer kodlarından daha mı güçlü?

Eğer gizyazı koyma mevzusundaki alışkanlıklarınız kötüyse (mesela kedinizin isminin sonuna "1" koymak benzer biçimde), ABD'nin…

10 saat ago

Tommaso Campanella Sözleri ve Alıntıları

Tommaso Campanella Sözleri Dünyanın tüm kitapları doyuramaz kafamın açlığını. Bencilliği ortadan kaldırırsanız geriye evrensel sevgi…

15 saat ago

Webb teleskobu ikonik galaksi Sombrero’nun yepyeni görüntüsünü paylaştı

Efsanevi Hubble Uzay Teleskobu'nun 20 yıl ilkin çekmiş olduğu fotoğrafta Sombrero Galaksisi kenarları parlak bir…

17 saat ago