Suni zekâ girişimi OpenAI, rahat bir metin istemiyle son aşama gerçekçi 60 saniyelik videolar üretebilen yeni suni zekâ aracını tanıttı ve adeta ortalığı birbirine kattı.
YouTuber’lar şokta, teknoloji editörleri bunun bir milat olduğunu düşünüyor, en başından beri suni zekâ (YZ) mevzusunda endişelerini dile getiren kesim ise bunun daha inandırıcı ‘deepfake’ videolar için bir sıçrama tahtası olabileceğine işaret ediyor. Teknoloji dünyasında ‘sıkı YZ fanatikleri’ ile ‘YZ kıyametçileri’ arasındaki kutuplaşma malum.
Bu hamle hem coşku verici hem de birazcık ürkütücü. Muhtemelen OpenAI’ın yeni aracını şimdilik fazlaca sınırı olan bir erişim programının arkasına almasının sebebi de bu.
‘Sora’ adında olan yeni ‘text-to-video’ şu demek oluyor ki metinden videoya vasıta, şu anda yalnızca modeli potansiyel zararlar ve riskler açısından değerlendiren ‘kırmızı ekip’ üyeleri tarafınca kullanılabiliyor. OpenAI ek olarak geri bildirim almak için bazı görsel sanatçılara, tasarımcılara ve film yapımcılarına erişim sunuyor.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
Sora, OpenAI’ın görüntü üreten DALL-E aracının arkasındaki teknolojiyi temel alıyor. Bir kullanıcının istemini yorumlayarak daha detaylı bir yönerge setine dönüştürüyor ve arkasından yeni videoyu oluşturmak için video ve görüntüler üstünde eğitilmiş bir YZ modeli kullanıyor.
OpenAI CEO’su Sam Altman X’te yapmış olduğu paylaşımda, “Sora’nın neler yapabileceğini sizlere göstermek istiyoruz. Lütfen görmek istediğiniz videoları yazın ve ikimiz de hayata geçirmeye başlamış olalım” dedi. Ortaya çıkan bazı videolar hakikaten çarpıcı görünüyor.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
OpenAI’ın blog yazısına göre Sora ‘birden fazla karakter, belirli hareket türleri ve mevzu ile arka planın doğru ayrıntılarına haiz karmaşık görüntüler’ yaratabiliyor. Şirket ek olarak modelin nesnelerin ‘fizyolojik dünyada iyi mi var bulunduğunu anlayabildiğini, sahne dekorlarını doğru bir halde yorumlayabildiğini ve canlı duyguları ifade eden etkisinde bırakan karakterler üretebildiğini’ belirtiyor.
Model hareketsiz bir görüntüye dayalı bir video oluşturabiliyor, mevcut bir videodaki noksan çerçeveyi doldurabiliyor ve videoyu genişletebiliyor.
Gelin Sora tarafınca oluşturulan demo videolardan bazılarına beraber bakalım ↓
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
İstem: Şık bir bayan, sıcak neon ışıkları ve hareketli kent tabelalarıyla dolu bir Tokyo caddesinde yürüyor. Siyah deri bir ceket, uzun kırmızı bir elbise ve siyah botlar giyiyor, ek olarak siyah bir çanta taşıyor. Güneş gözlüğü takıyor ve kırmızı ruj sürüyor. Kendinden güvenilir ve rahat bir halde yürüyor. Cadde nemli ve yansıtıcı, renkli ışıklar ayna tesiri yaratıyor. Birçok yaya etrafta dolaşıyor.
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
İstem: “Kırmızı yün örme motosiklet kaskı takan 30 yaşındaki bir uzay adamının maceralarını içeren bir film fragmanı, mavi sema, tuz çölü, sinematik biçim, 35mm filmle çekilmiş, canlı renkler.”
this could be the “holy shit” moment of AI. OpenAI özgü just announced Sora, its text-to-video AI model. This video isn’t real, it’s based on a prompt of “a cat waking up its sleeping owner demanding breakfast…” ? https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo
— Tom Warren (@tomwarren) February 15, 2024
İstem: Uyuyan sahibini uyandırıp kahvaltı isteyen bir kedi. Sahibi kediyi görmezden gelmeye çalışıyor sadece kedi yeni taktikler deniyor. (Bayıldık.)
This is wild.
OpenAI just dropped Sora that generate AI video just from text.
The Videos look insane.
1. Chinese New Year Dragon pic.twitter.com/XwvdWvvXRw
— Min Choi (@minchoi) February 15, 2024
İstem: Çin Ejderhası ile bir Çin yeni yılını kutlama videosu. (Hakikaten ürkütücü derecede gerçekçi bir video.)
Aslına bakarsak birçoğunda suni zekâ emareleri var ve şirket de bunu kabul ediyor. Ek olarak Sora bazı videolarda fizyolojik olarak mantığa aykırı hareketler yaratıyor. OpenAI modelin şu aşamada ‘karmaşık bir sahnenin fiziğini doğru bir halde simüle etmekte zorlanabileceğini’ söylüyor. Fakat sonuçlar genel olarak etkisinde bırakan diyebiliriz.
Sora hakkında ilk izlenimler iyi mi? Uzmanlar ne düşünüyor?
Suni zekâ teknolojisindeki süratli gelişme, film yapımcılığından haberciliğe kadar pek fazlaca sektörü yakından ilgilendiriyor. Washington Post’un haberine göre yakın gelecekte ‘tek bir kişinin bir Marvel filmiyle aynı görsel düzeyde bir film yapabileceğini’ ileri devam eden bazı teknoloji uzmanları var.
Suni zekânın sektör üstündeki tesirini yakından takip eden film yönetmeni ve görsel efekt uzmanı Michael Gracey, “Bir tek bir yıl içinde görüntü oluşturmada geldiğimiz noktaya bakın. Animasyon filmler yapmak için üç yıl süresince 100 yada 200 sanatçıdan oluşan bir ekibe gerekseme duyulmayacak. Bu benim için coşku verici” diyor.
Fakat öte taraftan YZ araçlarının, sanatçıların çalışmalarıyla eğitilmesinin büyük bir problem bulunduğunu vurguluyor: “İnsanların yaratıcılığını, çalışmalarını, fikirlerini ve uygulamalarını alıp onlara hak ettikleri tutarı vermemek adil değil.”
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Oxford İnternet Enstitüsü’nde siyaset araştırmacısı olan Mutale Nkonde, her insanın metni kolayca videoya dönüştürebilmesi fikrinin coşku verici bulunduğunu söylüyor. Sadece bu araçların toplumsal önyargıları iyi mi yerleştirebileceği, insanların geçim kaynakları üstündeki tesirleri ve nefret dolu metinleri rahatsız edici derecede gerçekçi görüntülere dönüştürme marifetleri mevzusunda endişeleri var.
Nkonde, Hollywood grevlerinin senaryo yazımında YZ araçlarının kullanılması ve oyuncuların bu teknolojiyle klonlanması benzer biçimde sorunlara çözüm aradığını hatırlatıyor ve mevzuyu ‘deepfake’e getiriyor: “Siyaset açısından bakıldığında ve bu benzer biçimde araçlar söz mevzusu olduğunda insanları iyi mi koruyabileceğimizi düşünmeye başlamamız gerekmiyor mu?”
Bu araçları geliştiren teknoloji şirketleri, araçlarının kullanımını izlediklerini ve siyasal içerik üretmek için kullanılmasına karşı bazı politikalar oluşturduklarını söylüyor. Sadece bu politikaların iyi mi uygulanmış olduğu belirsiz.
Princeton Üniversitesi’nde bilgisayar bilimleri profesörü olan Arvind Narayanan, OpenAI’ın paylaşmış olduğu demo videolara dayanarak Sora’nın ‘öteki tüm video oluşturma araçlarından mühim seviyede daha gelişmiş göründüğünü’ söylüyor. Narayanan da bu hamlenin daha inandırıcı ‘deepfake’ videolarla sonuçlanmasının olası bulunduğunu düşünüyor. Sadece “Bazı videolara yakından bakarsanız hâlâ fazlaca sayıda tutarsızlık görebilirsiniz” diyerek Tokyo videosundaki kadının yürüyüşüne ve arka planda ortadan kaybolan insanlara dikkat çekiyor.
Illinois Üniversitesi’nde informasyon bilimi profesörü olan Ted Underwood ise “Açıkçası iki ila üç yıl daha bu düzeyde video üretimi beklemiyordum. Öteki metinden videoya araçlarına gore kapasitede birazcık sıçrama olmuş benzer biçimde görünüyor” diyor. Sadece OpenAI’ın modeli en iyi şekilde gösteren videoları seçmiş olabileceği mevzusunda uyarıda bulunmayı da dikkatsizlik etmiyor.