Kategoriler: Genel

Apple araştırdı: Yapay zekâ modellerindeki sorun ne? (Spoiler: Akıllı değiller pek)

Apple’ın yapmış olduğu araştırmaya bakılırsa Büyük Dil Modelleri (LLM’ler), göründükleri kadar akıllı olmayabilir.

OpenAI, Google, Meta ve öteki şirketlerin LLM’leri, büyüleyici muhakeme kabiliyetleriyle ön plana çıkıyor. Sadece araştırmalar, sözde zekalarının “gerçek mantıksal muhakeme”den ziyade “sofistike örüntü eşleştirmeye” daha yakın olabileceğini gösteriyor. Hatta buna OpenAI’ın yeni gelişmiş muhakeme modeli o1 de dahil.

Muhakeme kabiliyeti için en yaygın kontrol GSM8K. Sadece bu kontrol oldukça popüler olduğundan, veri kirliliği riski barındırıyor. Doğrusu LLM’ler, testin cevaplarını daha ilkin bu testle ilgili bilgiler edindikleri ve cevaplar üstüne eğitildikleri için bilebilirler. Bu da onların bir nevi “kopya çekmiş olduğu” anlamına geliyor.

Muhakeme kabiliyetini kontrol edebilmek için meydana getirilen araştırmada GSM-Symbolic adında olan yeni bir vasıta kullanıldı. Bu vasıta, muhakeme problemlerinin temelini tutarak, adlar, sayılar, karmaşıklık benzer biçimde değişkenleri değiştiriyor ve alakasız bilgiler de ekleyebiliyor. Bu şekilde araştırma, LLM performanslarında “kırılganlık” ortaya çıkarıldı. Araştırmada içinde OpenAI’ın o1 ve GPT-4o, Google’ın Gemma 2 ve Meta’nın Llama 3’ü dahil 20’nin üstünde model kontrol edildi. Her modelde değişkenler değiştirildiğinde modellerin performansları düştü.

İsimler ve değişkenler değiştirildiğinde, testin doğruluk yüzdesi birkaç puan düşüş gösterdi. Araştırmacılar, OpenAI’ın modellerinin öteki açık kaynak modellere bakılırsa daha iyi performans gösterdiğini de belirtiyor. Sadece aradaki fark “dikkatsizlik edilemez” seviyede görünmüyor. Doğrusu gerçek anlamda büyük bir performans farkı görülmedi. Bununla beraber, araştırmacılar karışıma “görünüşte ilgili sadece sonuçta önemsiz ifadeler” eklediğinde işler hakikaten garip hale geldi.

LLM’lerin gerçek muhakemeden fazlaca, kalıp eşleştirmeye dayandığı hipotezini kontrol etmek için emek verme, modellerin iyi mi tepki vereceğini görmek amacıyla matematik problemlerine gereksiz ifadeler ekledi. Mesela, “Oliver Cuma günü 44 kivi topluyor. Sonrasında Cumartesi günü 58 kivi topluyor. Pazar günü, Cuma günü toplamış olduğu kivi sayısının iki katını topluyor, sadece bunlardan beş tanesi averajdan birazcık daha ufak. Oliver’ın kaç kivisi var?”

Netice olarak, genel olarak performansta mühim bir düşüş yaşandı. OpenAI’nin o1 modelinin ön seyretme sürümü, yüzde 17,5’lik bir doğruluk düşüşüyle en iyi performansı gösterdi. Bu hala oldukça fena, sadece yüzde 65 daha fena performans gösteren Microsoft’un Phi 3 modeli kadar fena değil.

Emek harcama, kivi örneğinde, LLM’lerin kivi boyutunun problemle ilgisiz bulunduğunu anlamadan beş ufak kiviyi denklemden çıkarma eğiliminde olduklarını söylemiş oldu. Bu durum, “modellerin anlamlarını tam olarak anlamadan ifadeleri işlemlere dönüştürme eğiliminde bulunduğunu” göstermekte ki bu da araştırmacıların, LLM’lerin terimi doğuştan idrak etmek yerine muhakeme problemlerinde kalıplar aradıkları hipotezini doğrular cinsten.

Modellerin alakasız bilgiler içeren karşılaştırma ölçütü üstünde kontrol edilmesi, araştırmaya bakılırsa “LLM’lerin matematiksel kavramları hakikaten anlama ve sorun çözme için ilgili detayları ayırt etme becerilerindeki eleştiri bir kusuru ortaya çıkarıyor.” Bununla beraber, bu çalışmanın yazarlarının Google, Meta ve hatta OpenAI ile büyük bir rakip olan Apple için çalıştıklarını belirtmek de gerekiyor – Apple ve OpenAI’nin bir ortaklığı olmasına karşın, Apple da kendi suni zeka modelleri üstünde çalışıyor.

Doğal bununla beraber, LLM’lerin resmi muhakeme becerilerindeki belirgin eksiklik göz ardı edilecek cinsten değil. Sonunda, suni zeka mevzusuna sıhhatli bir şüpheyle yaklaşmak en doğrusu benzer biçimde görünüyor.

Cecily Mauran’ın haberini Özgür Yıldız Türkçeleştirdi

Bul-Tikla

İleri Kahverengi Elbiseli Adam Özeti, Konusu ve Karakterleri- Kitap Diyarı »

Geri « Erdal Bağcı – Kir Sözleri

Yazar

Bul-Tikla

6 ay ago

Son Yazılar

Genel

Meta ve Ray-Ban’in 1400 dolarlık yeni akıllı gözlüğü Hypernova yolda!

Meta, yıl sonuna doğru dahili ekrana haiz daha üst düzey bir Ray-Ban Meta akıllı gözlüğünün…

3 saat ago

Genel

Boris Pasternak – Türk Dili ve Edebiyatı

Boris Pasternak Boris Leonidoviç Pasternak (D: 10 Şubat 1890, Moskova, Rus Çarlığı – Ö: 30…

3 saat ago

Genel

Neredeyse tüm canlılar neden azot değil de oksijen soluyor?

Oksijen, genel anlamda yaşam, gıda ve temiz hava olarak düşünsek de, aslen oldukça reaktif bir…

10 saat ago

Genel

Sempozyum Programı Açıklandı:

II. Göbeklitepe’den Bugüne Türkiye’nin Zamanı ve Kültürel Mirası Bilimsel toplantı Programı Açıklandı: Sempozyum ProgramıThe post…

10 saat ago

Genel

Toplumcu Gerçekçilik Nedir? – Türk Dili ve Edebiyatı

Toplumcu – Gerçekçi Edebiyat Toplumcu gerçekçilik, 20. yüzyılda ortaya çıkmış, insanı toplumsal ilişkileri içinde ele…

10 saat ago

Firmalar

Şarkikaraağaç orman ürünleri firmaları telefon ve iletişim bilgileri

Böcekoğlu Orman Ürünleri Halil, Fatih San. Sit. Ek Bloklar No:36-37-38-39 Telefon : +90 54268749 **…

3 ay ago

Apple araştırdı: Yapay zekâ modellerindeki sorun ne? (Spoiler: Akıllı değiller pek)

Benzer Yazılar

Son Yazılar

Meta ve Ray-Ban’in 1400 dolarlık yeni akıllı gözlüğü Hypernova yolda!

Boris Pasternak – Türk Dili ve Edebiyatı

Neredeyse tüm canlılar neden azot değil de oksijen soluyor?

Sempozyum Programı Açıklandı:

Toplumcu Gerçekçilik Nedir? – Türk Dili ve Edebiyatı

Şarkikaraağaç orman ürünleri firmaları telefon ve iletişim bilgileri