Dil farklılıkları üretken yapay zekanın gelişimini nasıl kısıtlıyor?

Komut tabanlı üretken yapay zeka (AI) araçları, e-posta yazmaktan ve yasal davaları derlemekten çok çeşitli eğitim, meslek ve mesleki disiplinlerde araştırma makalelerini özelleştirmeye kadar bir dizi kullanım senaryosu için hızla devreye alınıyor. Ancak dil kavramı monolitik olmadığı için standart olmayan diller ve lehçeler için üretken yapay zeka araçlarının geliştirilmesinde fırsatlar kaçırılabiliyor. Mevcut uygulamalar çoğu zaman belirli nüfuslar veya topluluklar için optimize edilmemişken bazı durumlarda sosyal ve ekonomik ayrışmaları daha da kötüleştirebilir. Avusturyalı dilbilimci ve filozof Ludwig Wittgenstein’ın da belirttiği gibi, “Dilimin sınırları dünyamın sınırları demektir.” Bu durum, konuştuğumuz dilin teknolojiyle ilişkimizi değiştirebildiği ve çevrimiçi dilimizin sınırlarının mevcut ve gelişmekte olan teknolojilerin tam ve makul kullanımını kısıtlayabildiği günümüzde özellikle geçerlidir.

Şu anki haliyle, İngilizce, Fransızca, Almanca, İspanyolca, Çince veya Rusça gibi dünyanın baskın dillerinden birine mensup olmayanların büyük çoğunluğu geride bırakılıyor. Dünya genelinde 7.000’den fazla dil konuşulmasına rağmen, internetteki içeriğin büyük bir kısmı İngilizce olarak yazılmakta, geriye kalan en büyük çevrimiçi paylar ise Mandarin veya İspanyolca gibi Asya ve Avrupa dillerine ait olmaktadır. Üstelik sadece İngilizce dilinde, “standart” ABD İngilizcesinin ötesinde 150’den fazla lehçe bulunuyor. Sonuç olarak, üretken yapay zeka gibi yapay zeka araçlarını eğiten büyük dil modelleri (LLM’ler), standart ve standart olmayan konuşmacılar arasındaki uçurumu artırmaya hizmet eden ve dijital dil uçurumunu genişleten iki taraflı internet verilerine dayanmaktadır.

Sosyologlar, antropologlar ve dilbilimciler arasında dil, bir güç kaynağıdır ve öğrenilmiş, dilsel yeteneklere bağlı yeni araçların geliştirilmesini ve yaygınlaştırılmasını önemli ölçüde etkiler. Kişinin sosyo-etnik bağlamlar içinde nerede oturduğuna bağlı olarak, anadil toplulukları içsel olarak güçlendirebilirken, aynı zamanda göçmen ve tarihsel olarak ötekileştirilmiş toplulukları kısıtlamak için yerleşik güç yapıları tarafından kullanıldığında eşitsizlikleri artırabilir ve çoğaltabilir. Örneğin, transatlantik köle ticareti sırasında okuryazarlık, beyaz üstünlükçüler tarafından Siyahların köle efendilerine bağımlılığını pekiştirmek için kullanılan bir silahtı ve bu da 1800’lerde çoğu Konfederasyon eyaletinde okuryazarlık karşıtı yasaların çıkarılmasına neden oldu.

Bu tarihi eser ve sadece İngilizce kurallar ve yasalar yerine iki dilli iletişimi yasaklayan diğer hareketler nedeniyle, dijital dünyada aynı dilsel çerçeveleri inşa etmenin, özerk ve üretici sistemlerdeki dijital uçurumu daha da kötüleştiren sonuçlarını düşünmek önemlidir.

Dil farklılıkları dijital uçurumla başlıyor

Diller arasında var olan kaynak eşitsizlikleri, dijital uçurumla olan bağlantıları nedeniyle, üretken yapay zeka sistemleri ve LLM’ler gibi teknolojilerde daha fazla eşitsizliği sürdürme eğilimindedir. Çoğu dil tabanlı sistem, araştırmacıların büyük ölçekte toplayabileceği internet verileri üzerinde eğitilmektedir. Ancak internette yalnızca birkaç yüz dil temsil edilmektedir ve bunların en büyük kısmını İngilizce oluşturmaktadır. Bu nedenle İngilizce, veri açısından en zengin dillerden biri haline geldi ve İngilizce verilerin toplu halde bulunması, İngilizce merkezli veri kümelerinin ve modellerin oluşturulmasına yol açtı.

Üretken yapay zekadan önce bile, çoğu doğal dil işleme (NLP) sistemi İngilizce gibi “yüksek kaynak” dillerinde tasarlanmış ve test edilmiştir. Dünya çapındaki tüm aktif dillerden yalnızca 20 tanesi “yüksek kaynak” dili olarak kabul edilir; bu kategorizasyon, dil tabanlı sistemleri etkili bir şekilde eğitmek için belirli bir dilde mevcut olan veri miktarını ifade eder. Bu aşırı asimetrinin bir nedeni, az kaynaklı dilleri konuşanların dijital hizmetlere sınırlı erişime sahip olmalarıdır; bu da önemli ölçüde daha küçük bir dijital ayak izine sahip oldukları ve bu nedenle web kazınmış eğitim verilerine dahil edilme olasılıklarının daha düşük olduğu anlamına gelir. Kullanılabilir dil tabanlı sistemleri eğitmek için yeterli veri olmadan, dünyadaki yapay zeka uygulamalarının çoğu dünyadaki milyarlarca insanı eksik temsil edecektir.

Sadece yetersiz kaynaklara sahip dilleri konuşanlar değil, aynı zamanda “yüksek kaynaklara sahip” dillerin bölgesel lehçelerini konuşanlar da risk altındadır. Kitaplar, bloglar, haber makaleleri, reklamlar ve sosyal medya gönderileri de dahil olmak üzere çok sayıda çevrimiçi içerik “standart” ABD İngilizcesi ile yazılmakta ve daha sonra NLP sistemleri ve üretken yapay zeka araçları için web’de kazınmış eğitim verileri haline gelmektedir. Aslında, ChatGPT 300 milyar kelime üzerinde eğitilmiştir – bu kelimelerin kaç tanesinin standart olmayan bir İngilizce lehçesine ait olabileceğini hayal edin.

AAVE (Afro-Amerikan Yerel İngilizcesi) veya Chicano İngilizcesi (özellikle Güneybatı’daki Meksikalı Amerikalı topluluklar tarafından konuşulur) dahil olmak üzere standart olmayan lehçeleri konuşanların, yüksek hızlı geniş bant, internet özellikli bir cihaz veya her ikisinin de olmaması nedeniyle internete bağlı olmama olasılığı daha yüksektir, bu da onları üretken çevrimiçi katılımcılar olma olasılığını azaltır. Bu nedenle dijital uçurum, LLM eğitim veri kümelerindeki seyrek ve eşit olmayan temsil ile yüksek oranda ilişkili olabilir, bu da üretken yapay zeka ve ilgili kaynakların daha çeşitli topluluklara etkili bir şekilde hizmet etmek için yeterince inşa edilmemesine ve temsil edilmemesine neden olur.

Dijital dil uçurumu

Bu eğilimlerin etkilerini bir sonraki bölümde daha ayrıntılı olarak açıklanacak olan “dijital dil uçurumu” olarak adlandırıyoruz. İngilizce, yüksek kaynaklı bir dilin standart olmayan konuşurlarının nasıl dışlanabileceğine dair sadece bir örnek çalışma sunmaktadır. Mandarin, Almanca ve diğer yüksek kaynak dillerinin de Kiezdeutsch (kentsel alanlarda birinci nesil göçmen gençler tarafından kullanılan bir Alman lehçesi) gibi çevrimiçi ortamda ve araştırmalarda yeterince temsil edilmeyen “standart” ve standart olmayan çeşitleri vardır. Konuşmacılar arasındaki kaynak eşitsizlikleri dijital erişim ve altyapıdan kaynaklanırken, dilsel çeşitliliği yansıtan teknik liderlere ve geliştiricilere sahip olmak da kapsayıcı üretken yapay zeka araçları ve ötesinin oluşturulmasında kilit bir rol oynayacaktır.

Dijital dil uçurumu neden önemli?

Konuştuğumuz dil, dünyayla nasıl ilişki kurduğumuzu ve hangi dünyalara katılabileceğimizi belirler. Tarih, dilin nasıl bir dışlama ve baskı aracı olarak kullanılabileceğini göstermiştir. Köleleştirilmiş Siyah nüfusun okuma yazma öğrenmesini yasaklayan ABD eyaletlerinden, Japon Amerikalı çocukların kitap ve sınıf kaynaklarından mahrum bırakıldığı toplama kamplarına kadar, aşırı sağcı hareketlerin anadili İspanyolca olanlar için iki dilli eğitime son verilmesi çağrısında bulunduğu günümüzde de aynı kalıp devam etmektedir.

Dil -ve ona kimin erişebileceği- defalarca savunmasız nüfusları haklarından mahrum bırakmak için silah haline getirilmiştir. Günümüzdeki tek fark, artık risklerin, kapı tutma işini yapabilecek, üretken yapay zeka gibi dil tabanlı teknolojileri içermesidir.

Bu nedenle, üretken YZ’nin faydalarının ve fırsatlarının eşit dağılımı, dil verilerine eşit erişime bağlıdır. Üretken YZ, iletişim engelli ve düşük okuryazarlık seviyesine sahip kişilerden okul bölgelerindeki K-12 öğrencilerinin öğrenimine kadar mevcut birçok eşitlik açığını kapatma potansiyeline sahiptir. Ancak farklı konuşmacıların dil kayıtlarını doğru bir şekilde yakalayamadığında, beyaz olmayan insanların tarihsel katkılarını da silebilir ve silinmesine katkıda bulunabilir. Örneğin, ChatGPT’den Afrikalı Amerikalı bir kahramanın yer aldığı genç yetişkin romanı The Hate U Give’in anlatı sesiyle konuşması istendiğinde, verdiği yanıt rastgele aralıklarla “yo” eklemek oldu. Üretken yapay zekanın artan kullanımı göz önüne alındığında, faydaları tüm kullanıcılar için erişilebilir veya kapsayıcı değilse, o zaman sadece bazı eşitlik boşluklarını diğerlerini genişletme pahasına kapatıyoruz demektir.

Bir dilin “standart” çeşitlerine, üretici YZ araçlarının eğitiminde öncelik verildiğinde, bu dil kullanıcıları genellikle bu araçlardan daha iyi performans elde eder ve bu da diğer dil çeşitlerine ve konuşmacılarına karşı daha fazla ayrımcılık yapar. Örneğin, hile, intihal veya yanlış bilgilendirmeyi tespit etmek için kullanılan YZ dedektörlerinin, özellikle yazarın ana dili İngilizce olmayan biri olduğu durumlarda, YZ tarafından oluşturulan metni insan tarafından yazılmış metinden ayırt etmede güvenilmez olduğu görülmüştür. Stanford’da yapılan bir çalışmada, YZ dedektörleri TOEFL (Yabancı Dil Olarak İngilizce Testi) denemelerinin çoğunu hatalı bir şekilde YZ tarafından üretilmiş olarak işaretlemiştir. Ancak, anadili İngilizce olan öğrencilerin denemeleri ile test edildiğinde, aynı dedektörler %100 doğrulukla performans göstermiştir.

Bu eşitsizlik, “standart” ABD İngilizcesini baskın söylem biçimi olarak belirleyen prestij transferi gibi sosyal süreçleri güçlendirir ve telaffuz veya dilbilgisindeki herhangi bir üslup sapması daha düşük veya yanlış olarak algılanır. Bir dil çeşidi ile diğerine kıyasla performanstaki belirgin farklılıklar, standart olmayan konuşmacılara karşı önyargılı tutumlar üretmekte ve standart olmayan konuşmacıları, üretici YZ’den aynı faydaları elde etmek için “standart” biçimlere uyum sağlama baskısıyla karşı karşıya bırakmaktadır. Bu, dijital dil uçurumunun sadece bir parçasıdır.

Standart olmayan konuşmacılara karşı dilsel önyargılar, üretken YZ şirketlerine veya geliştiricilerine iyi hizmet etmez. Üretken YZ araçları kapsayıcılık, temsil ve ölçeklenebilirlik için çabalıyorsa, temsili olmayan dil verilerine güvenmek, gerçek dünya bağlamlarının karmaşıklığını tam olarak yakalayamayan yetersiz performansla sonuçlanır. “Standart” bir dil çeşitliliğine bağlı kalmak, birçok konuşmacının kod değiştirdiği veya farklı bağlamlar için farklı formlar kullandığı gerçeği yansıtmaz. Aslında, marjinalleştirilmiş topluluklar ana akım söyleme uyum sağlamak için sıklıkla kod değiştirmeye zorlanmaktadır. Dil çeşitlerinin hesaba katılması, gerçek dünyadaki konuşmaları ve karşılaşmaları ele almanın yanı sıra daha nüanslı kullanım durumlarını yerine getirecek şekilde donatılmış sağlam üretken yapay zeka araçları yaratacaktır.

Ayrıca, geliştiriciler toplanan ve bir araya getirilen dil verilerinin türündeki bu kör noktaların çoğunu ele almak için çalışırken, daha fazla açık kaynaklı veri kümesi, mikro veri ve standart olmayan İngilizce konuşanların gelişmiş katılımcı katılımı, ürün doğruluğundaki tutarsızlıkları giderebilir. İkinci öneride, daha fazla açık kaynaklı dil verisi, yine dilin ve bağlamsal uygulamaların çeşitli temsillerinde kısıtlı olabilecek tescilli veri setlerinden çok daha kapsayıcı olabilir.

Geleceğe doğru

Araştırmacılar çoğu zaman, sorunları doğrudan ele almaya odaklanan önyargı azaltma yerine, sorunlu modelleri geri ölçeklendirmeye odaklanan risk azaltma yöntemine başvurmaktadır. Üretici yapay zeka araçlarında önyargıyı doğrudan azaltmak için araştırmacılar, model oluşturma ve eğitim veri kümelerinin oluşturulmasında bölgeye veya dile özgü seçimler yapabilirler. Bu, erkenden çeşitli “döngüdeki insanları” dahil etmek ve yerel toplulukların seslerini, lehçelerini ve zamanlamalarını LLM’lere getirmeleri için katılımlarını davet etmek anlamına gelir. Mevcut ve gelecekteki eğitim verilerine yeterince temsil edilmeyen grupları dahil etmenin sayısız yolu olsa da, bu tür bir toplama şeffaflıkla ve kültürel uzmanlığın sömürülebilir bir varlık olmamasını sağlamak için bazı korkuluklarla yapılmalıdır. Kültürel bir özellik olmasının yanı sıra dil, konuşanlar ve haneler için de kişiseldir ve bu göz ardı edilmemelidir. Konuşma ve sağlam dil araçlarının aktarımı, daha homojen LLM’lerde veya daha genel olarak YZ’de kodlanamayabilecek benzersiz kültürel etkinliklerin nitelikleridir.

Birçok kuruluş ve araştırmacı, eğitimde yerelliğin vurgulanmasına yönelik çalışmalar yürütmektedir. Afrika dillerinde teknik gelişimi teşvik etmek için Masakhane, çeşitli yerel lehçelere sahip Afrikalı konuşmacılardan dilbilimsel veriler topluyor ve kültürel olarak ilgili verileri yakalamak için hizmet etmeye çalıştıkları topluluğu dahil etmek için taban düzeyinde faaliyet gösteriyor. Dil ve metin verilerinden oluşan daha temsili derlemler oluşturmak çok önemli olacaktır. Üniversite düzeyinde, Stanford’dan bir makine öğrenimi uzmanı, 141.000’den fazla AAVE kelimesi içeren açık kaynaklı AAVE derlemlerini paylaşarak kaynak eşitsizliğini gidermektedir. Buna ek olarak, hesaplamalı dilbilim için küresel bir araştırma topluluğu olan Universal Dependencies, çok dilli konuşmacıların kod değiştirmesini temsil eden bir Hintçe İngilizce külliyatı da dahil olmak üzere “standart” ABD İngilizcesinin ötesindeki diller ve lehçeler için veri paylaşmaktadır.

Üretken yapay zekanın artan kullanımı, özünde çevrimiçi eşitsizliklerin bir belirtisi olan dijital dil uçurumunu daha da kötüleştirdiğinden, dijital uçurum arasında köprü kurmak çok önemlidir. İnternet erişimi cinsiyete, coğrafyaya ve sosyoekonomik duruma göre değişir; bunların hepsi de kullanıcının bölgesel lehçesi ve dil çeşitliliği ile kesişir. İnternete sınırlı erişimi olan topluluklar çevrimiçi ortamda yeterince temsil edilmeyecek ve bu da üretici yapay zeka araçlarının eğitimi için mevcut metin verilerini çarpıtacaktır. Sonuç olarak, hangi değer ve normların baskın dili, kabulü ve çevrimiçi erişimdeki eşitsizlikleri yönlendirdiğini ele almak, dilsel çeşitliliğimizin tamamını temsil eden daha kapsayıcı çevrimiçi ekosistemler oluşturmamıza yardımcı olabilir.

Bu yazının özgün versiyonuna brookings.edu sitesinden ulaşılabilir.

Dil farklılıkları üretken yapay zekanın gelişimini nasıl kısıtlıyor?

Dil farklılıkları dijital uçurumla başlıyor

Dijital dil uçurumu

Dijital dil uçurumu neden önemli?

Geleceğe doğru

Diğer yazılar