Manifold

21/03/2023 ÖMER SÜMER

ChatGPT ve
Büyük Dil Modelleri

ChatGPT, OpenAI tarafından geliştirilen bir doğal dil işleme modeli. Son günlerde ya bir yerlerde bu ismi duymuş ya da kendiniz ChatGPT’ye farklı sorular sorarak test etmiş olmalısınız. Eğer hem duymamış hem de denemediyseniz hiç paniğe gerek yok, çünkü zaten hayatınızın bir aşamasında farkında olmadan dil modellerini kullanıyorsunuz ya da çok yakında kullanacaksınız. Bu yazıda, ChatGPT başta olmak üzere büyük dil modellerinin [LLMs: Large Language Models] nasıl çalıştığını, ne amaçlarla kullanılabileceğini, faydalarını ve muhtemel risklerini ele alacağım.

Büyük Dil Modelleri

Sadece OpenAI’nin ChatGPT’si ve önceki GPT modelleri değil, daha fazlası var: Microsoft’un geliştirdiği, kullanıcıyı tehdit eden ve farklı kişiliklere bürünen Bing AI adlı modeli, Meta’nın ürettiği yalan yanlış metinlerle sosyal medyada eleştirilen LLaMA’sı ve benzerleri ilk akla gelenler. Peki büyük dil modelleri nasıl çalışıyor ve ne işe yarıyor?

Derin öğrenmenin yükselişe geçtiği son on yıldaki yeni yöntemler önce bir veri türünde, belli bir problemi çözmek için geliştirildi. Sonra zaman içinde başka alanlara uygulandı. İlk çıkış noktası bazen görüntü işleme, bazen akustik ses analizi, bazen de doğal dil işleme alanları oldu. İşte, doğal dil işlemedeki gelişmeler de yinelemeli sinir ağlarındaki yenilikler ve “dikkat mekanizmaları”nın geliştirilmesinden sonra, son birkaç yılda oldu. Büyük dil modelleri, milyarlarca eğitilebilir parametre taşıyan ve soru cevaplama, karşılıklı sohbet (sohbet robotu [chatbot] ile), metin özetleme, makine çevirisi gibi doğal dil işleme problemlerine çözüm getiren derin öğrenme modelleridir. İsmindeki “büyük” hem modelin milyarlarca parametreden oluşmasından hem de eğitildikleri metinlerin çok büyük olmasından kaynaklanıyor.¹

Büyük dil modelleri başarısını büyük verinin varlığı, yüksek performanslı hesaplamadaki gelişmeler, yinelemeli sınır ağları ve dikkat mekanizmalarına borçlu; ancak, en önemlisi de denetimsiz öğrenme yöntemleri. Denetimsiz öğrenme, insan emeğiyle bir etiketleme olmadan, doğrudan büyük veri üzerinde örüntüleri tanımayı, anlamlandırmayı amaçlayan bir öğrenme biçimi. Denetimli öğrenmede ise resim, video, ses ya da yazı gibi farklı şekillerde veri örnekleri bir ya da birden fazla insan tarafından etiketlenir. Bir derin öğrenme modelini eğitip verilen resimlerde bulunan nesneleri tespit etmek ve tanımak isteyelim: Örneğin kuşları tespit etmek ve türlerini sınıflandırmak. Bu problemi kabul edilebilir bir performansla gerçekleştiren bir modeli denetimli öğrenmeyle eğitmek için kuşların hem resimlerin neresinde olduğu hem de türleri insan eliyle etiketlenmelidir. Her tür için belki de binlerce resmin etiketlenmesi gerekir. Elimizde ne kadar büyük veri olsa da denetimli öğrenmeyle etiketleme işlemini sürdürmek hem zor hem de çok zaman alır. Denetimsiz öğrenme, farklı yollarla verideki örüntüleri keşfetmemizi ve anlamamızı sağlar.

GPT ismi Generative Pre-Training (üretken ön eğitim) söz öbeğinin kısaltmasıdır. Birçok dil modelinde, genellikle ön eğitim, denetimsiz öğrenmeyle gerçekleştirilir. Ardından, öğrenilen derin öğrenme modeli, transfer öğrenmeyle küçük bir miktar etiketli veri kullanılarak istenen başka problemleri çözmek üzere uyarlanır. Hatta yeni büyük dil modelleri, transfer öğrenmesine gerek duymadan asıl görevlerde başarı gösterebilir. Peki, büyük dil modellerindeki denetimsiz öğrenme örnekleri nelerdir?

İstenen öğrenme problemlerine benzer olduğu düşünülen, etiketsiz büyük veri üzerinde örüntüleri tanımak için kullanılan bu yöntemlere özdenetimli öğrenme [self-supervised learning] de denir. OpenAI tarafından geliştirilen GPT-1 ve GPT-2 başta olmak üzere, doğal dil işlemede en yaygın kullanılan yöntem, verilen bir cümle ya da çok daha uzun bir metinden sonraki kelimeyi tahmin etmek. İlk bakışta ilgisiz gibi görünebilir, ancak sonraki kelimeyi üretmek, soru cevaplama, sohbet, metin özetleme, makine çevirisi gibi birçok öğrenme problemine yardım eden ve yaygın kullanılan bir yöntemdir.

GPT-3’te ise hem eğitim setinin hem de model boyutunun önemli ölçüde büyüdüğünü görüyoruz. GPT-2’nin 1,5 milyar parametresi varken, GPT-3 175 milyar parametreye sahip. Zaten büyük dil modelleri birkaç yıl gibi bir sürede, daha büyük boyutta veri kümelerinde, daha büyük modellerle eğitiliyor. 1970’lerden beri aynı büyüklükteki elektronik karta sığdırılabilecek transistör sayısı gelişen teknolojiye bağlı olarak kabaca iki yılda bir ikiye katlanıyor ve bu doğrusal artış, Moore yasası olarak biliniyor. İşte 2018’den bu yana da her yıl büyük dil modellerinin parametre sayısı da doğrusal olarak artıyor.² Bu yazıyı kaleme alırken, GPT-4 modelinin yakında çıkacağı ve metnin yanı sıra muhtemelen resim ve video gibi farklı modları da kullanılacağı söylentileri dolaşıyordu.

Son günlerde sürekli duyduğumuz ChatGPT ise GPT-3 modeline dayanan ancak özellikle diyalog veri kümeleri üzerinde eğitilmiş. Ayrıca ChatGPT’de pekiştirmeli öğrenme de kullanılmış. Pekiştirmeli öğrenme denen makine öğrenmesi ve yapay zekânın bir başka alt dalı. Basitçe pekiştirmeli öğrenmeyi söyle açıklayabiliriz: Bir ajan [agent yani öğrenmeyi gerçekleştiren makine öğrenmesi modeli] ve çevre [environment] var. Bu ajan, her adımda bir dizi eylemden birini gerçekleştiriyor ve birkaç adım sonunda başarısına göre bir ödül fonksiyonu hesaplanıyor ve çevredeki durumu [state] güncelleniyor. Biraz oyun oynamak gibi. Zaten yapay zekânın çözdüğü atariden satranca ve hatta Go’ya kadar birçok oyunda, çözümün bir parçasında pekiştirmeli öğrenme vardı. Burada “oyunu çözmek”ten kastettiğimiz, o oyunda en güçlü bilgisayar modelini ya da dünya şampiyonunu yenecek kadar güçlü bir yapay zekâ yönteminin geliştirilmesi. Mesela 2016 yılında DeepMind’in geliştirdiği AlphaGo³, Dünya Go Şampiyonu Lee Sedol’u yenmişti. AlphaGo’da da pekiştirmeli öğrenme kullanılmıştı.⁴

Üç aşamada ChatGPT’nin nasıl eğitildiğini gösteren akış şeması, kaynak: OpenAI

Yukarıdaki şekilde ChatGPT’nin nasıl eğitildiği anlatılıyor. Kısaca açıklayacak olursak, ChatGPT sohbet amaçlı kullanılmak için tasarlandığından ilk aşamada kullanıcıdan bir giriş yapması isteniyor; buna prompt deniyor. Her giriş için beklenen cevaplar toplanıyor. Böyle bir veri kümesi üzerinde transfer öğrenmesi gerçekleştiriliyor. Prompt engineering⁵, dil ya da resim üreten modellere metin yazan ve yapay zekâ sisteminin mantıksal eksikliklerini gidermek için sohbet botuyla yazışmayı ifade ediyor. Bu gerçek bir meslek ve bu sohbet botlarını geliştiren ve kullanan teknoloji şirketleri bu iş için personel istihdam ediyor. İkinci aşamada da ChatGPT verilen promtlar için muhtemel farklı cevapları üretiyor ve insan yardımıyla bu cevaplar iyiden kötüye doğru sıralanıyor ve model bu etiketli veri üzerinde eğitiliyor. Üçüncü aşamada ise model daha önce denetimli olarak eğitilen parametrelerle başlatılıp bir pekiştirmeli öğrenme algoritması [Proximal Policy Optimization, PPO] kullanılarak daha da geliştiriliyor.

Bir Fırsat mı Yoksa Bir Yanılsama mı?

ChatGPT ve büyük dil modellerinin nasıl çalıştığını kısaca ele aldık. Büyük dil modelleri ve benzeri yapay zekâ modelleri hayatımızın bir parçasında yer alacak ve istesek de istemesek de bunları bir yerde kullanmak durumunda kalacağız. Peki, müşteri hizmetlerinde kullanılmaları bu işlerde çalışan insanları işinden edecek mi? Bu teknolojileri bir fırsat olarak mı görmeli yoksa bir yanılsama mı? Onlara yeteneklerinin üzerinde güvenip, haklarında aşırı iyimser mi düşünüyoruz?

Bu konuya eleştirel ve şüpheci bir taraftan bakıyorum. İş dünyasında birçok görevi insana bağımlı olmaktan çıkarma potansiyeli olumlu yönü. Böylelikle, robotlara ya da sohbet botlarına devredilebilecek işleri yapan insanlar el emeğinin ve yaratıcılığın önem taşıdığı mesleklere yönelebilir. Ancak, eğitildikleri büyük veri setlerine bağlı olarak bu dil modellerinin insanda olan önyargıları barındırdığını biliyoruz. Cinsiyetçi, ırkçı ya da şiddet içeren metinler üretebilirler. Otomatik konuşma tanıma ve akıllı avatarlarla birleşince, ekran karşısında ya da bir robotla etkileşim için kullanılabilirler. Bu kullanım alanları bana Black Mirror dizisinden distopik sahneler hatırlatıyor. Tabii ki iyi amaçlarla kullanımı, örneğin yaşlılara ya da engelli bireylere günlük hayatta yardım, bilgisayar destekli psikoterapi, eğitim öğretim ve sayısız uygulama alanı. O yüzden, aşırı optimizmden uzak durarak ChatGPT ve diğer büyük dil modellerinin eksiklerini de görmekte fayda var.

Birkaç gün önce The New York Times’ta dünyaca ünlü dilbilim profesörü Noam Chomsky, bir başka dilbilim profesörü Ian Roberts ve Jeffrey Watumull tarafından bir makale yayımlandı.⁶ Hem Chomsky’nin ismi hem de makalenin başlığı, “ChatGPT’nin Sahte Vaadi” konuya ne yönden baktıklarını gayet net gösteriyor zaten. Bu makalenin, bir çocuğun dil öğrenimi ve ediniminden bahsettiği kısmı oldukça ilgimi çekti. Çocuklar doğuştan gelen bir sistemle, çok az örneğe maruz kalsalar da bilinçsizce ve otomatik olarak öğreniyor. Dilbilimciler zahmetle zor ve karmaşık kurallar geliştiriyor mantığı ve dilbilgisini açıklamak için. ChatGPT gibi büyük dil modelleri ise 45 terabaytın üstünde veri kümesi ve içeriğini tam olarak bilmediğimiz farklı diyalog veri setleriyle eğitilmiş. Diğer bir ifadeyle, yapay zekâ var olan veri setindeki örüntüleri tanımaktan ibaret. Tam anlamıyla insandaki gibi bir muhakeme ve sağduyu yeteneğine sahip değil. Gelecekte bu yeteneğe sahip olup olamayacağı da belirsiz.

Dilbilim yönünün de ötesinde, yapay zekânın öğrenmesi ve bir bebeğin öğrenmesi arasında çok temel farklar var.⁷ Linda Smith ve Michael Gasser bir bebeğin öğrenmesinden alınacak altı dersi inceliyor. Kısaca ifade etmek gerekirse, bebekler çok modludur (dünyayı farklı sensörlerle algılarlar), kendilerini zamanla geliştirebilirler, fiziksel olarak etkileşimde oldukları bir dünya vardır ve zekâları bu etkileşimle ve deneyimlerle dağılmıştır. Bebekler, yetişkin bir öğretmeni kabul eder ve onların rehberliğinde sosyal bir dünyada hareket eder. Bebekler bir dil öğrenir ve daha üst düzey, soyut ayrımları yapabilirler.

Sohbet botlarını biraz zorladığınızda saçma ya da yalan bilgi içeren cevaplar almak mümkün. Bazen verilen cevapların doğruluğunu kontrol etmek, yalan bilgiye kanmamak göründüğü kadar kolay değil. Sohbet botlarının ürettiği yazım kurallarına uygun, hatta ilk bakışta mantıklı görünen bir metin, gerçek dışı bilgi içerebilir. Kullanıcı olarak farkına varmamız oldukça zor. Bu yüzden, doğruluk kontrolü [fact-checking] yapabilme yeteneğine sahip olmamız daha da önem kazanıyor.

Kısa süre önce Meta, başka bir büyük dil modeli, LLaMA’yı duyurdu. Şirket bu modeli talep eden araştırmacılarla paylaşabileceğini açıkladı. Ancak model, bir kullanıcı tarafından internette yetkisiz bir şekilde paylaşıldı. Bu modellerin kötü maksatlarla kullanılması da ihtimaller dahilinde. Her ne kadar veri setlerinin, kaynak kodların ya da eğitilmiş modellerin açık olması bilimsel araştırma için iyi olsa da büyük dil modelleri için bu konu biraz daha karışık. Kötü niyetli birinin elinde böyle bir araç, mesela ticari fayda uğruna, bazı ürünler hakkında sahte inceleme yazıları yazdırmak için kullanılabilir. Daha önce Cambridge Analytica skandalından bildiğimiz üzere belli konularda kamuoyu fikrini, hatta seçimleri manipüle etmek için kullanılmaları da söz konusu. Princeton Üniversitesi’nde bilgisayar bilimleri profesörü Arvind Narayanan ve doktora öğrencisi Sayash Kapoor birkaç gün önce yayımladıkları açık mektupta, LLaMA ve benzeri modellerin kötü amaçlı kullanımına dair örnekleri ve endişeleri paylaştı.⁸ Mektuplarında da ifade ettikleri gibi, büyük dil modelleri geliştiren ya da kullanan şirketlerden daha şeffaf olup bu araçların kötüye kullanımını paylaşmalarını talep etmeliyiz. Benzer şekilde sosyal medya platformları da dil modellerinden kaynaklanan dezenformasyonla mücadele etmeli.

Gelişim psikolojisi ya da dilbilim çalışanlarının da bahsettiği gibi, ChatGPT ve benzeri büyük dil modellerinin birçok yönden bir bebeğin zekâsından, algılama, düşünme ve etkileşim yeteneğinden uzak olduğunu kabul etmeliyiz. Hatta belki bu seviyeye hiç ulaşamayacağız. Bu konuda bilgisayar bilimleri, bilişsel bilimler araştırmacıları ve filozoflar, yapay genel zekâ ve singularite konusunda farklı fikirlere sahip. Bu yazıda, şu günlerde popüler olan ChatGPT ve büyük dil modelleri hakkında düşündüklerimi aktardım. Büyük dil modellerinin ne durumda nasıl davranacağını anlamak ve anlamlandırmak imkânsız. Halbuki bir ontolojiye dayanan, bilgi temsili ve muhakemeyi kullanan yapay zekâ modellerinde, kompleks bir sistemi açıklayan matematiksel bir model ya da kontrol sistemleriyle ilgili teori ve simülasyon içeren bir araştırma için bu durum geçerli değil. Her ne kadar fırsatlardan çok tehlikelere dikkat çekmiş olsam da ChatGPT hâlihazırda farklı dijital uygulamalara entegre edildi.⁹ Bu risklerin bilincinde olarak kısıtlı kullanım alanlarında faydalı olabilir. Zaman içinde büyük dil modellerinin hem kötü kullanımlarını hem de iyi uygulamalarını göreceğiz.¹⁰

{fold içerisindeki görsel: Ömer Sümer’in ChatGPT ile sohbetinin ekran görüntüsü, 2023}

1. Konuyu dağıtmadan, bu modellerin çevreye etkisinden de bahsetmekte fayda var. Tek bir modeli, örneğin GPT-3 modelini eğitmek için gereken elektrik 1,287 gigawatt saat. ABD’deki yaklaşık 120 evin yıllık elektrik tüketimine denk geliyor. Bu enerjinin karbon emisyonu ise 502 ton, yani yaklaşık 110 arabanın yıllık karbon emisyonuyla eşdeğer. Kaynak: Bloomberg.

2. Julien Simon, “Large Language Models: A New Moore’s Law?”, Hugging Face, 26.10.2021.

3. Wikipedia, 01.03.2023.

4. David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser vd., “Mastering the game of Go with deep neural networks and tree search” nature 529, no. 7587 (2016): 484-489.

5. Aaron Mok, “‘Prompt engineering’ is one of the hottest jobs in generative AI. Here’s how it Works”, Insider, 01.03.2023.

6. Noam Chomsky, Ian Roberts ve Jeffrey Watumull, “Noam Chomsky: The False Promise of ChatGPT”, The New York Times, 08.03.2023.

7. Linda Smith ve Michael Gasser, “The development of embodied cognition: Six lessons from babies.” Artificial life 11, no. 1-2 (2005): 13-29.

8. Arvind Narayanan ve Sayash Kapoor, “The LLaMA is out of the bag. Should we expect a tidal wave of disinformation?” Algorithmic Amplification and Society Blog, Knight First Amendment Institute at Columbia University, 06.03.2023.

9. OpenAI, 01.03.2023.

10. ChatGPT’den bu metin için bir şeyler yazmasını istedim, konu da mimarlık.

Ömer: Mimarlık terminolojisini kullanarak ve örnekler de vererek, aşağıdaki konuda bir yazı yazar mısın: Teknoloji, mühendislik ve yapı malzemelerindeki gelişimler, modern Türk mimarisini nasıl etkiliyor?
ChatGPT:
Elbette, şimdi bu konu hakkında bir deneme yazabilirim.
Teknoloji, mühendislik ve yapı malzemelerindeki gelişmeler, modern Türk mimarisini önemli ölçüde etkilemektedir. Geleneksel mimari anlayışlarının yanı sıra Türk mimarları bu yenilikleri kullanarak özgün tasarımlar üretmektedir.
Mimari tasarımda kullanılan teknolojik araçlar ve malzemeler, inşaat sürecinde zaman ve maliyet tasarrufu sağlamaktadır. Örneğin üç boyutlu yazıcılar kullanarak inşaat malzemeleri ve yapı elemanları üretmek mümkündür. Böylece inşaat sürecinde zamandan ve maliyetten tasarruf edilirken aynı zamanda doğal kaynakların daha verimli kullanılması sağlanabilir. Bu teknolojiler aynı zamanda daha karmaşık tasarımların üretilmesine de olanak tanır.
Mühendislik gelişmeleri de modern Türk mimarisinin tasarımına etki ediyor. Yüksek katlı binaların inşası için kullanılan yapısal çelik ve cam malzemeler, modern mimaride yaygın olarak kullanılmaktadır. Ayrıca çevre dostu malzemeler de kullanılmaktadır. Örneğin yenilenebilir enerji kaynaklarından elektrik üreten güneş panelleri ve rüzgâr türbinleri gibi teknolojiler, mimari tasarımlarda daha sık görülmektedir.
Modern Türk mimarisi geleneksel ve modern tasarım anlayışlarının bir araya gelmesiyle şekillenmektedir. Mimarlar geleneksel Türk mimarisinin çatı yapısı, avlular ve açık alanlar gibi özelliklerini modern tasarım anlayışıyla birleştirerek benzersiz tasarımlar oluşturmaktadır. Örneğin Atatürk Kültür Merkezi’nin yeniden tasarımı geleneksel mimariye saygı duyarken modern tasarım öğeleriyle birleştirilerek, kendine özgü bir tasarım yaratılmıştır.

{Editörün notu: Bu okumayı (yapay zekâdan bağımsız) dilbilim konusunda derinlikli bir söyleşiyle zenginleştirmek isteyenlere Nilay Örnek ile dilbilimci Gülşat Aygen’in leziz sohbetini dinlemelerini öneririm.}

büyük dil modelleri, ChatGPT, dil (lisan), Ömer Sümer, yapay zekâ