Türkçe doğal dil işleme, derin öğrenme, Julia ve farkındalıklar üzerine

Ülkemizde son günlerde daha da artan terör olaylarında şehit olanlara Allah'tan rahmet, geride bıraktıklarına başsağlığı ve sabır diliyorum. Her şeye rağmen, geride kalanlar olarak işlerimizi daha iyi yaptığımız zaman, bu zorlu günlerden bütün kayıplarımıza rağmen, başımız dik çıkma imkanı bulacağımıza inanıyorum.

Türkçe derlem/corpus problemi

Bilgi teknolojileri konusunda çalışan bir kişi olarak, yıllardır ülkemizde belli alanlarda ilerleme olmadığını veya gelişmiş ülkelerle karşılaştırıldığında az ilerleme olduğunu görüyorum. Bunun temel sebebi olarak, Türkiye'deki iş hayatının üretmek üzerine değil, tüketmek üzerine kurulduğu konusunda uzun tartışmalar, konuşmalara şahit olduğum çoktur. Doğal dil işleme ve buna dayalı ürün ve hizmetlerin uygulanması konusunda teknolojisini takip ettiğimiz ülkelerdeki gelişmelerin çok gerisinde kalmamızın nedeni, bunun en uç örneklerinden birisi olarak görmüşümdür. Kendi dilimiz ile ilgili çok teknik ve uzun çalışmalar gerektiren ve ARGE ye dayalı bu eforun, yabancı akademisyenler ve şirketler tarafından yapılması beklenen bir ülkede yaşıyor olmak, bunun sadece Türkiye'deki belli bir akademik çevrenin problemi olarak görülmesi ...
Çeşitli amaçlarla, Türkçe doğal dil işleme konusunda fırsat buldukça arama motorları ile yaptığım aramalarda, çok bir gelişme olmadan yıllar geçti. Genel izlenimim, akademik bazı yayınlar, yayınlanmış eşdeğerleri ile karşılaştırılabilecek Türkçe bir derlem/corpus olmaması ve yapılanların da genellikle dış dünyaya kapalı olması şeklinde oldu. Yazılı dışında, yapılan Sözlü Türkçe derlem çalışmaları daha da geriden gelmektedir.

Çıplak gerçek

Bir ay kadar önce doğal dil işleme ile ilgili olarak üzerinde çalışılacak Türkçe text formatında dokümanlar aramaya başladım. Daha önceden de benzer teşebbüslerim olmuştu ama çok vakit ayırmamıştım. Bu defa bir gün boyunca aramama rağmen fark ettim ki Türkçe doğal dil işleme üzerinde çalışmak isteyen bir geliştirici veya akademisyen için üzerinde çalışılacak böyle bir text dosya ya yok, ya da erişmesi çok kolay değil. Önce buna inanmak istemedim, fakat ısrarla araştırmama rağmen elektronik ortamda -devletin yayınladığı onca kitaba rağmen- HTML veya pdf formatı dışında text formatında herhangi bir doküman bulmayı başaramadım. Yani temel girdiye basitçe ulaşmak imkanı bulamadım. Örnek vermek gerekirse, İngilizce metin olarak Shakespeare in bütün oyunlarını text formatında çok kolayca 'Shakespeare hamlet corpus' ile google da arayınca gelen ilk link size bu imkanı veriyor. Bu siteden herhangi bir bilgi talebi olmadan, ilgili dokümanı lokalinize indirip dilsel olarak incelemeye başlayabiliyorsunuz. Ya da derleme/corpus kaynaklarına herhangi bir üyelik gerektirmeden örneğin bu linkten zahmetsizce erişebiliyorsunuz. Fakat benzer bir çalışmayı Türkçe dilinde yapmayı düşündüğünüzde, üzerinde çalışılacak text formatında bir metin bulmak ya imkansız, çok zor ya da ilgilenmek isteyenin kolayca ulaşamayacağı bir yerlerde.

Akademik görüş

Israrlı araştırmalarım sonucunda 2014 yılında yapılan bir çalışmaya ulaştım. Bu çalışmada, derlem konusunda alınan bir metni kategorize etme, anahtar kelimeleri çıkarmaya dayanan Türkçe Etiketli Metin Derlemi konusunda dahi, bulunduğumuz durum akademisyenlerimiz tarafından şu şekilde dillendirilmiştir.

Türkçe dilinde, özellikle metin sınıflandırmada kullanılmak üzere açık kaynaklı, geniş kapsamlı ve sınıf etiketli bir derlemin eksikliği hissedilmektedir. Bu çalışma, bu eksikliği kapatmak için yapılmıştır ve belirtilen açılardan bilgimiz dahilinde literatürde ilk olacaktır.

Bu çalışmada da, text formatında metin bulma probleminden şu şekilde bahsedilmiştir.

Metinler .html ve .pdf formatındaki bildiri ve makalelerden kopyalanmıştır. Kopyalamadan kaynaklı yazım hataları, oluştuğu durumlarda düzeltilmiştir.

Düzeltmelerin elle yapıldığını düşünüyorum, çünkü makalede çalışmanın özetler üzerinden yapıldığı, makalenin bütününü kapsamadığı belirtilmektedir. İşin ilginç tarafı, detaylı yapılan bu çalışmada, bu adresten paylaşılan derlemin sadece kaynak olarak kullanılan bilimsel rapor özetlerinin düzenlenmiş hallerini içermesidir. Araştırma dışında bir amaçla kullanılmaması istenmektedir.

Başarı dediğin nedir ki?

Durum böyle olunca, Türkçe doğal dil işleme konusunda yapılmış çalışmalara ve alandaki çalışanlara olan bakışım değişti. Girdiye ulaşmanın zorlu olduğu bir çalışmadan, çıktı ürettikleri için bütün eksikliklerine rağmen önemli bir iş başarmışlardı. Fakat bu yaptıklarının problemli tarafı, bilimsel çalışmaların olmazsa olmazı olan açık, tekrar edilebilir ve karşılaştırılabilir yöntemler üretme noktasıdır. Buna bir de, çıktıların dış dünyanın erişimine kontrollü olarak açılması problemi de eklenince, yapılan çalışmaların adacıklar şeklinde olması, etkileşimlerin sınırlı olması kaçınılmaz olduğu bir ortam oluşmuş durumda. Var olan Türkçe corpus/derlemelere doğrudan erişim şansı yok ya da bir kullanıcı edinerek kontrollü erişim mümkün, bir de sadece akademik çalışmalara açık olduğu belirtiliyor. Bunu telif konusunda sıkıntılar olan bir ülkede yaşamamıza, ortaya çıkan Türkçe corpus un ciddi emek gerektirdiğine bağlamakla beraber, bu tutum zaten az olan çalışmaların belli bir akademik çevre dışında tanınmamasına yol açıyor. Akademik çalışmaların yeterli olduğunu da şeffaflık olmadığı zaman sadece yazılan bildiri ve makalelere bakarak anlamak da çok mümkün değil.

Keşke daha önce fark etseydim

Bu düşünceler ile biraz daha araştırdığımda, bu konuda keşke daha önce fark etseydim dediğim bir akademisyenimizin web sayfasına ulaştım. Bu sayfaya ulaştığımda, ülkemizde üretme konusunda sıkıntı olduğunu düşünen benim gibi insanlar için, üretme dışında artık başka bir problemimizin de olduğunu fark ettim. Doğal dil işleme konusunda uzmanlaşmış bu akademisyenimizin 2009 yılında yazdığı bir yazısında şöyle dediğini ve ben dahil bir çok BT çalışanının bunun farkında bile olmadıklarını itiraf etmeliyim. İngilizce Türkçe otomatik tercüme yazısından,

Google sonunda otomatik tercüme yaptığı dillere Türkçe'yi de ekledi. Bu teknolojinin İngilizce bilmeyen Türk nüfusunun internetteki bilgi birikimine ulaşımı için önemli olduğunu düşünüyor ve birkaç yıldır üzerinde ben de çalışıyorum. En büyük engellerden biri araştırma amacıyla kullanılabilecek yüklü miktarda İngilizce-Türkçe paralel metne ihtiyaç olması

(yaklaşık 100 milyon kelime = 1000 kitap).

Bu metni toplayabilmek için bir iki yıl telefonla devlet kurumları, uluslararası kuruluşlar, yayınevi, haber kurumu, hukuk ve tercümanlık şirketleri, üniversite
bölümleri vs ile görüşüp pozitif bir cevap alamayınca yoruldum ve vazgeçtim. İşin üzücü tarafı karşılaştığım büyük engelin yayın hakkı, fikir mülkiyeti gibi hukuksal bir konu değil, insanların ilgisizliği olması.

Şimdilik bir iki milyon kelimelik metinden geliştirilmiş oyuncak bir sistemle uğraşıyorum öğrencilerimle.

Google'ın sistemini ben yazmış olmak isterdim.

Okusaydım, okusaydın ne olurdu? En azından bu konuda gayret eden, uğraşan bir uzmanı takip etmek, gerektiğinde elimizden gelen desteği vermek mümkün olabilirdi. Benim durumumda olanların da Deniz Yuret hocamızı tanıması ve bilgi birikiminden faydalanması, elinden gelebiliyorsa birlikte çalışma imkanı yaratması için bu yazıyı yazdım.
Bu konu üzerinde düşündüğümde, büyük bir ülkenin çocukları olarak son on yıllarda biz farkında olalım olmayalım alanında bir çok değerli uzman yetişti. Ülkemizin bilgi toplumu olmaya çalıştığı bir dönemde, akademik dünya ile iş dünyasının kişisel ilişkiler dışında da iletişimde olduğu, aynı konularda dertlenen insanların birbirlerini tanıma imkanı bulması başlı başına bir problem.

Deep learning ve Julia

Hocamızın yazdığı 'Turkish Language Resources' ve 'Beginning deep learning with 500 lines of Julia' yazılarından faydalanmalarını öneriyorum. İlgilisi için çok faydalı olacak daha pek çok yazı var. Sizlere de tavsiye ederim. Özellikle derin öğrenme konusuna meraklı olanlar için Julia ile geliştirdiği açık kaynak kodlu Knet projesi ne de bir göz atmanızı öneririm.

Sonuç

Bir çaba siz ona ulaştığınızda sizin için gerçek olur, ulaşamadığınızda sizin dünyanızda yaşanmamış kabul edebilirsiniz. Bu nedenle bir çaba gösterdiğinizde, bunu yazarak paylaşmaya özen gösterin. O sırada ulaşamadıklarınıza, seneler sonra bile olsa ulaşma şansınız olacaktır. Ancak bu şekilde yapılanları tekrar etmemek, üzerine birşeyler koymak, arkadan gelenlerin akıllarına düşecektir. Yoksa ufuklar dar, yapılanlar yapılmamış olacaktır.

Veri kalitesi işlemlerinde bulanık mantığın (Fuzzy logic) kullanılması

Bulanık mantık (Fuzzy Logic) üzerine 1995 yılında bitirdiğim yüksek lisans tezinde, bulanık mantık ile çalışan bir uzman sistem yapmıştım. O zamanlar bulanık mantık, bilişim teknolojileri alanında yeni yeni emekleme dönemindeydi. Özellikle veritabanlarında bilgi keşfi çalışmaları için kullanılması yönünde oldukça çok akademik çalışma yapılmaktaydı. Günümüzde Bilgi Teknolojileri (BT) sektöründe bulanık mantık dahil diğer bilgi belirsizliği modellerini, BT profesyonelleri "kullanıyor" dememiz zor. Fakat en zor alanlardan biri olan ve gün geçtikçe önemi artan veri kalitesinin arttırılması konusunda yapılan çalışmalarda, bulanık mantık terimi oldukça sık ismi geçen bir terim haline geldi. Bu nedenle yazımızın konusu bu terimin genel anlamından çok veri kalitesinde kullanımı konusunda olacak. Veri kalitesi çalışmalarında fuzzy logic kelimelerini ilk duyduğumda kelimelerin bulanık küme teorisinde kullanılması geldi. Örneğin; çok gürültülü kelimesinin bulanık kümesinin kurulmas...

Devamı

Veri Dünyası

Bu Blogda Ara