Microsoft, büyük modellere gore daha kolay ve belirli görevler için tasarlanmış suni zeka modelinin yeni versiyonu Phi-3 Mini’yi kullanıcılara sundu.
Geçtiğimiz hafta gösterilen makaleye gore Phi-3 Mini, 3,8 milyar parametreye haiz. Bu sayı, OpenAI’ın 1,7 trilyon parametreli (resmi olmasa da) GPT-4 modeline gore oldukça azca. Sadece bunun sebebi Phi-3 Mini’nin akıllı telefonlarda kullanılabilir olması.
Geleneksel YZ modelleri, çok çok fazla işlem gücü gerektiriyor ve böylesine bir işlem gücü hem pahalı hem de çevreye bıraktığı karbon ayak izi sebebiyle zararı dokunan. Microsoft ve Google şeklinde firmalar, yaygın görevleri halledecek daha ufak boyutlu modeller üstünde çalışıyor. Doğal bu modeller, endüstrinin de odaklandığı akıllı telefonlara oldukça daha uygun. Samsung, son dönem Galaxy cihazlarına üretken YZ özelliklerini sunmaya başladı. Google da bir benzerini Pixel serisine getiriyor. Apple’ın da iOS 18’le beraber büyük bir YZ duyurusu yapması umut ediliyor.
Parametreler, modellerin karmaşıklığın üstesinden iyi mi gelebileceğiyle ilgili, bundan dolayı ne kadar oldukça parametre olursa, bir model geniş ve incelikli istekleri ele almada o denli yetenekli oluyor. Sadece averaj bir kullanıcının tercüme yapmak, e-posta yapmaya destek olmak yada mahalli restoranları aramak şeklinde bir YZ modelinden gereksinim duyacağı günlük görevler için oldukça daha ufak ve hafifçe bir model kafi oluyor.
Phi-3 Mini, Meta’nın açık kaynaklı modeli Llama 3 ve OpenAI’nin GPT-3.5 modeline karşı birkaç kural dışı haricinde testlerde benzer puanlar aldı. Organik dil anlama (MMLU) ve sağduyulu muhakeme (HellaSwag) testlerinde Llama 3’ü geride bırakırken, GPT 3.5’in derhal altında kaldı ve aritmetik muhakemede (GSM8K) her iki modeli de geçti. Makalede belirtildiği suretiyle, önemsiz şeyler ve “olgusal data” mevzusunda daha düşük puan aldı, sadece araştırmacılar “bu zayıflığın bir arama motoruyla artırılarak çözülebileceğine” inanıyor, doğrusu model internete bağlandığında, bu mesele ortadan kalkacak.
Araştırmacılar Phi-3 Mini’yi, yüksek kaliteli eğitim detayları standartlarını karşılayan “yoğun şekilde filtrelenmiş web verilerinin” yanı sıra, web’deki istisnasız her şeyle bir modeli eğitmenin en iyi yolu olduğu fikrine meydan okuyan, bileşik verilerin bir kombinasyonu üstünde eğitti. DailyAI’ye gore, model bununla beraber insan beyninin emek harcama şeklini idrak etmek için aslına bakarsak bir ton anlam ifade eden uyku zamanı hikayeleri üstünde de eğitildi. Eğitim mevzusunda güdülen düşünce, seçilen verilerde nicelik yerine kalite tercih ediliyor olması. Bu sayede model, oldukça daha azca parametre üstüne çalışıyor olsa da gene de enerjisini koruyabiliyor.
Cecily Mauran’ın haberini Özgür Yıldız Türkçeleştirdi.