Algoritmanın Gözleri

Yapay zekâ uygulamalarının popülerliği son yıllarda gittikçe yükseliyor, görsel sanatlardan otomasyon sistemlerine hayatımızın her alanında karşımıza çıkıyor. Dünyayı algıladığımız arayüzler, nasıl gördüğümüze, hissettiğimize göre değişiyor. Uzun zamandır bu konuları düşünen, görme ve yapay zekâ arasındaki ilişkiye odaklanan Ege Özgirin ile meseleyi temelinden alıp biraz açmaya çalıştık. Uzun bir sohbetin içinden bir parçasını aldık ama bu bir girizgâh olsun. Bunun istisnai bir sohbet olduğunu söylemek gerek, belki sonrasında başka formatlar da gelir.

Yelta: Bu konuşmayı açarken en temel yerinden başlamak istiyorum. Günümüzde yapay zekâ teknolojileri gittikçe artan bir ilgiyle takip ediliyor. Ne oldu da yapay zekâ bu kadar akıllı oldu, eskiden bilgisayarlar bu kadar akıllı değil miydi?

Ege: Bunun büyük ölçüde sorumlusu “hesaplama” yerine artık “yapay zekâ” dememiz olabilir. Bana kalırsa 2012’den sonra bunu daha çok yapmaya başladık. Bunun bir sebebi de 2012’de bir yapay zekâ algoritmasının (Hinton et al.) otomatik resim tanıma işlemini insan benzeri bir performansla gerçekleştirmiş olması. Bu şu demek; bu algoritma rastgele bir kedi imajı gördüğünde insana mahsus bir doğrulukta kedi olarak sınıflandırabildi ve bunu daha önceki algoritmalara kıyasla çok daha iyi yaptı. Üstelik bunu yaparken insan beynindeki nöron ağlarından kısmen ilham alarak geliştirilmiş yapay zekâ alt alanı yapay nöron ağları yöntemlerini kullandı. Bu olay ve bunun gibi yapay nöron ağları kullanan algoritmaların Go, doğal dil işleme gibi başka alanlarda da başarı göstermesi kamusal hayal gücüne oynayan medyanın insana öykünen ve yakında insan zekâsını da aşacak yapay zekâ hikâyesini şişirmesinin önünü açtı. Yapay zekânın artık daha da akıllı olduğu tartışması biraz bundan.

Tabii yapay zekâ kavramı bilgisayarla hesaplama kavramının ortaya çıkışından beri vardı (Turing, 1950). Genel anlamda bilişsel insan edimlerini hesaplamalı olarak tarif etmekle ilgileniyordu. Daha sonra uzman sistemler, kural tabanlı sistemler veya evrimsel algoritmalar gibi türlü algoritma ve yöntemleri tarif etmek için kullanılan bir çatı kavrama dönüştü. Az önce bahsettiğimiz yapay nöron ağlarını baz alan algoritmalar, otomatik öğrenme olarak tarif edilen yine bir yapay zekâ alt alanına dahil. Bu algoritmaların en belirgin özelliği şu: Bir veri yığınından bilgi devşirmek istediğinde bunu nasıl yapması gerektiğini sen algoritmaya kuralları vererek açık bir şekilde söylemiyorsun fakat yine birtakım sınırlar çiziyorsun ve algoritma bu sınırlar dahilinde kendi parametrelerini kendi düzenleyerek daha iyi bilgi devşirmeyi öğreniyor.

Y: Buradan anladığım aslında bir öngörememezlik, belirsizlik hâli. Eski sistemler daha kural tabanlı ilerlerken, tahmin edilebilir sonuçlar verirken, yeni teknolojiler belirsizliği getiriyor ve tahmin edilemeyen sonuçlar doğuruyor. Bu da hem heyecanlı bir alan oluştururken, keşfetme güdüsünü besliyor sanırım.

E: Bu soruya yapay zekâ araştırmacılarının değişen arzuları üzerinden cevap vereyim. Kural tabanlı sistemler gibi erken dönem yapay zekâ alanlarında çalışanların ortak arzusu insanın bilişsel kapasitesinden ilham alan algoritmaları detaylarına kadar tasarlamak ve bunu yaparken mümkün olduğunca açık ve belirgin olmaktı; yani ormanda kaybolmamak adına mümkün olduğunca ekmek kırıntısı bırakmaya çalışıyorlardı. Bunlara karşılık yeni dönem yapay nöron ağları araştırmalarına bakınca, ortak arzunun, çok fazla parametreye sahip yüksek kapasiteli bir modeli doğru şekilde gütme yollarını bulmak olduğunu görüyoruz. Bu ekmek pişirmeye daha çok benziyor. Un, maya, su miktarını büyük bir titizlikle kontrol etmeye çalışıyoruz ama en nihayetinde mayanın un ve suyla etkileşimini belirleyen ortam sıcaklığı ve nemi, ortalama pişirme sıcaklığı, fırın hacmi gibi kesin olarak kontrol edemediğimiz başka değişkenler oluyor. Yapay nöron ağlarını eğitirken model mimarisini ve ana parametreleri belirliyoruz ama bir yandan modelin kendi kendine öğrenecek kadar esnek ve kapsamlı olmasını da istiyoruz. Daha ampirik, daha el yordamına dayalı farklı bir araştırma biçimi kesinlikle.

Y: Uzun zamandır bugünün dünyasının görsel merkezli olduğunu düşünüyorum. Bunu dâhice bir tespit olarak sunmuyorum aslında, herkesin bildiği bir şey. Sürekli imgeye yönelik, görmeye bağımlı mecraların içindeyiz. Yapay zekâ, imge tahayyülünü tetikliyor, fiziksel dünyada olmayan şeylerle karşılaşma imkânı sağlıyor, o yüzden de popülerleşiyor. Bir yandan da fiziksel olarak karşımıza çıkmaması. Daha önce Manifold’da bahsettiğim “This Person Does Not Exist” projesi sözgelimi, olmayan suretleri yaratan bir görsel algoritma, neredeyse bir gerçeklik yanılsaması. Aklıma gelen bir başka örnek de mesela glitch art. O dijital ve teknik estetiğin yanında yapay zekâ algoritmaları neden bu kadar popüler diye düşünürken, izleyiciyle kurduğu ilişki olduğunu düşünüyorum. Kafama takılan soru şu: İmgelerle çalışmak daha mı kolay, yoksa zaten hâlihazırda imgeler merak alanımız olduğu için mi yapay zekâ bu alanda daha popüler?

E: İmge işleme yapay zekâ ya da daha spesifik olarak otomatik öğrenmenin ana konularından biri oldu hep; fakat imgeleri sayısal olarak bilgisayarda temsil etmek pahalıydı. Bunun yanında imgenin üzerinde işlemler yapabilmek için bir sürü matris hesaplaması gerekiyor. Bunları yakın bir zamana kadar (mesela 2012’ye kadar) erişilebilir donanımlarla yapmak çok zordu. Bu bahsettiğimiz kediyi köpekten ayırt eden yapay zekâ modelini üretmek için bir buçuk milyon tane resim işlemek gerekti. Önce resimlerden oluşan bu veri tabanını kendi bilgisayarında saklayıp, daha sonra da grafik işlemcileri kullanarak matris hesaplamalarını hızlandırman lazım. Yakın zamana kadar bu donanım masrafını herhangi bir amatör araştırmacının karşılaması mümkün değildi, artık daha kolay.

Bunun dışında söylediğin gibi imgelerin tüketilmesi de daha kolay olduğu için bu tüketimi destekleyecek altyapıların imgeleri daha iyi saklaması veya onlardan bilgi devşirmesi daha önemli hâle geldi. Bu yüzden otomatik imge işleme üzerine büyük bir ilgi var.

Y: Bu bana John Winckelman’ın şu sorusunu hatırlatıyor: Görmeyi, bakmayı, tatmayı öğrenebilir miyiz? Sonuçta taklit ederek, benzerleri üreterek öğreniyoruz. Bu durumda algoritma da taklit etmeyi mi öğreniyor, böyle mi eğitiyor kendini? Genelleme yapacak olursam geçmişten beri gelen, taklit etme yöntemlerini mi öğreniyor bilgisayar?

E: Öğrenmede bir faz var ya, mesela bir çikolatanın kötü olup olmadığının ayrımına varabiliyorsun, ama özel olarak neden kötü olduğunu açıklayamıyorsun. Neden kötü olduğunu açıklamak için düşünsel, sözel bir açıklığa ihtiyaç duyuyorsun. Bunun için de insan eğitim alıyor tabii. Ya bir kursa dahil oluyorsun ya da YouTube’dan video izliyorsun. Birileri sana sönük de olsa farkına vardığın o şeylerin nedenlerini gösteriyor, bunları kelimelere döküyor. Böylelikle aşina olduğun kavramları o çikolatayı tarif edebilmek için kullanıyorsun. Bir nevi uzmanlaşıyorsun. Ama en başta çikolata tadında ters giden bir şeylerin ayrımına varabiliyor olma hâli var. Yapay nöron ağlarının öğrenme mekaniği de da buna çok benziyor. Algoritma yavaş yavaş (ya da hızlı hızlı) onun farkına varmasını istediğin şeylerin farkına varıyor.

Y: Biz bunu Elif [Çak] ile evde çok konuşuyoruz; gözün nasıl geliştiğini, nasıl evrelerden geçip bir imajı görüp iyi ya da kötü olduğunu söyleme motivasyonunun, bilgisinin geldiğini. Gözü eğitmekten geçiyor bu süreç, bir beğeni kriteri oluşturuyor aslında. Bir yerden sonra önceki eğitimine, geçmişine ya da adını koyamadığın birçok değişkene bağlı olarak iyi veya kötü diyorsun.

E: Bence çok iyi bir noktaya geçtik buradan; çünkü bu söylediğin, daha önce bahsi geçen thispersondoesnotexist.com’un arkasındaki yine bir yapay nöron ağı algoritması olan GAN’lerin (Generative Adversarial Networks) nasıl çalıştığına da benziyor. GAN’ler iki tane yapay nöron ağından oluşuyor. Bunlardan biri popüler tabiriyle sahte sanat eserleri üreten bir kalpazan gibi davranıyor. Kalpazan (üretici model) durmadan imgelerin sahici versiyonlarına çok benzer yeni imgeler üretmeye çalışıyor. Kalpazanın karşısında da tarihi eser uzmanı var. Tarihi eser uzmanı bu kalpazanın ürettiği “sahte” imgeler ile “sahici” imgeleri birbirinden ayırmaya çalışıyor. Az önce bahsettiğimiz, kediyi köpekten ayıran modelin bir benzeri aslında bu. Bu iki model karşılıklı olarak birbirini alt etmeye çalışıyor. Bu öğrenme sürecinde tarihi eser uzmanı model tam bahsettiğin gibi iyi bir beğeni modeli oluşturmaya çalışıyor, böylelikle kalpazanın ürettiği sahte resimleri sahici resimlerden ayırabiliyor. Kalpazan da beğenisi giderek gelişen uzmanın karşısına daha da sahici resimler üreterek çıkıyor. Bu sürecin sonunda kalpazan öyle sahte resimler üretiyor ki tarihi eser uzmanı bunları sahicilerinden ayıramıyor. Bu örnekle teknik bazı detayları atladık ama çok gerçekçi suratlar ya da kediler üretmemizi sağlayan bu algoritma temelde böyle çalışıyor. “Yapay zekâ artık daha da akıllı” sloganlarına eşlik eden görseller de genelde bunlar.

Üreten algoritmalardan sözü açmışken, görsel yerine yazı üreten bir de GPT bazlı algoritmalar var o da ayrı bir hikâye.

Y: GPT-3 ile ilgili merak ettiğim şöyle bir şey var; tüm internetteki bilgiyle train edilmiş demiştin daha önce.

E: 2020 Ağustos’una kadar internette erişilebilir hâlde bulunan verilerin tümüyle eğitilmiş bir yapay zekâ algoritması bu. Bu da üretken bir model ama onu eğitirken uygulanan prosedür az önce bahsettiğimizden farklı. Modelin başarı ölçütü kendisine sonu bilerek kırpılmış bir paragraf verildiğinde paragrafı aslına uygun olarak kelime kelime tamamlayabilmesi.

Y: Bunda kritik eden bir şey yok yani.

E: Modelin eksik paragrafı tamamlarken paragrafın tam versiyonuna ne kadar uygun olduğunu sayısal olarak ölçüp modeli ödüllendirip ödüllendirmeyeceğine karar verdiğin için aslında kritik etmiş oluyorsun. Fakat bu modelin kapasitesi ve verinin ölçeği o kadar büyük ki modeli eğitirken çok basit bir başarı ölçütün olsa bile yine de çok ilginç sonuçlar alabiliyoruz. GPT-3 kolaylıkla insan gibi sohbet edebiliyor, şiir ya da bütünlüğü olan makale yazabiliyor.

Y: Biraz da insan gibi eğitiliyor gibi geldi bana. GAN’de bahsettiğimiz eğitim sürecinden farklı gibi?

E: Aslında taklit etmeyi öğreniyor, biz de bazen derste bahsedilen konuyu anlamıyoruz ama iyi taklit edebiliyoruz. Bazı sınavlardan iyi not almamızı sağlıyor. Bir şekilde iyi tekrarlayarak, taklit ederek akılcı duyulan şeyler söyleyebilmek zor değil.

Y: Konuşmaya başladığımızdan beri aklımda olan bir mesele var, biraz soruyu mimarlık alanına çekme niyetimle de ilgili aslında. Aynı zamanlarda mimarlık eğitimi aldık, bizim zamanımızda –erken 2010’lar diyelim– sayısal tabanlı tasarım konuları gitgide popülerleşiyordu. Ama yapay zekâ bu kadar yaygın değildi, parametrik tasarım mesela çok popüler bir konuydu o zamanlar. Sana hem senin profesyonel pratiğindeki değişimi hem de genel olarak yapay zekâ ve tasarım ilişkisini sormak isterim.

E: Mezuniyetim 2011-2012’ye denk geliyor, rastlantısal olarak daha önce bahsettiğim makalenin çıkışına denk gelse de ondan bağımsız olarak yapay zekâ ve tasarımın nasıl bir araya gelebileceğini düşünmeye başlamıştım. Tasarımı nasıl yapıyorsun, neler olup bitiyor kafanda, bu kararları nasıl veriyorsun? Herhalde her mimarlık öğrencisi bir noktada bunları düşünmüştür. Bu sistemi taklit edebilir misin, başka yapay bir sistem bunu taklit edebilir mi? Tasarım süreci iflah olmaz bir karmaşıklıkta olduğu için zaten ancak bunun bazı noktalarını kendi kafanda netleştirebiliyorsun. Ben belli bir tarzda bir şeyler üretmeye başlıyorum ama neden bu tarz benim için baskın hâle geldi? Ya da neden bazı örnekleri diğerlerine göre daha çok seviyorum? Ya da çizim yaparken bu çizimden neden keyif alıyorum, neden çizgileri böyle kullanma eğilimindeyim gibi sorular merakımı uyandırıyordu. Bunu ben yapıyorum ama buradaki fail nerede, burada karar verici kim, ben nasıl sistemlere dayanıyorum, burada tek bir karar verici mi var, o tekil bir ben miyim yoksa benim içimde başka benler mi var?

Bir noktada bu soruların çoğunun görme edimiyle doğrudan ilişkili olduğunu fark edince de görmenin nasıl gerçekleştiğini daha çok anlamak istedim. Bir blogda gördüğün bir fotoğrafın sana ilham vermesi ve bir şeyler yapmaya başlaman ya da bir şey üretirken daha önce rastgele gördüğün bir şeyin kararını etkilemesi vesaire. Bunun gibi izi kolay sürülemeyen ama insan görü sistemine doğrudan bağlı olan şeyleri modelleyerek anlamak heyecan verici. Böylelikle resim işleme, sınıflandırma, resim üretme algoritmalarına daha fazla yanaştım.

Yüksek lisansta da özellikle insan görsel sistemleri ve onlardan ilham alan hesaplamalı sistemlere odaklandım. Mezun olduktan sonra da birkaç sürücüsüz araba firmasında çalıştım. Araba kameraları için çevreyi daha iyi algılayacak görsel algoritmaların tasarımı üzerine çalıştım. Mesela bir kaldırımın eşiğindeki birinin niyetini anlamak istiyorsun. Biz arabayı kullanırken büyük oranda gözlerimizi kullanıyoruz. Aniden frene basmamın sebebi kaldırımdaki insanın yola beni görmeden çıktığını görmem. Benzer şekilde frene basacak otomatik bir sistem üretebilmek için otomatik görme sistemlerinin çok kapsamlı çalışması lazım. Bu görme sistemlerinin temelinde de az önce konuştuğumuz algoritmalar var aslında. Daha sonra bu teknolojilerin farklı alanlara uygulanabileceğini görünce arkadaşlarımızla kendi şirketimizi kurduk. Şimdi de bu teknolojilerin yapılı çevredeki uygulama alanlarını araştırıyoruz.

Y: Bir anlamda son kullanıcının bakma kabiliyetinden yola çıkarak bir algoritma geliştiriyorsunuz ve bir evi kiralama, satın alma sürecinde kullanıcının deneyimini kolaylaştırıyorsunuz anladığım kadarıyla.

E: Bir mekânın ilanına bakarken ya da içinde gezerken çoğu şeyi anlıyoruz. Ne gördüğümüzü tam hatırlamasak da beğeniye dair kararımızı verirken birtakım izlenimlerden yararlanıyoruz. Amerika’da bir ev kiralayacaksanız, emlakçılar evin içinin dekorasyonunu yapıp öyle sunuyor. Bu mobilyalar belirli bir tarzda oluyor genelde; biz ise bahsettiğim yapay zekâ teknolojilerini kullanıp, insanların kendi tarzlarına uygun imajlar üretmelerini sağlamaya çalışıyoruz. Artırılmış gerçeklik uygulaması gibi bir yerleştirmeden bahsetmiyorum, boş bir mekân fotoğrafının yapay zekâ algoritmalarıyla yeniden üretilmesinden bahsediyorum aslında.

Truncation traversal”, Derrick Schultz

algoritma, Ege Özgirin, evrimsel algoritma, imge, yapay zekâ, Yelta Köm