Ana içeriğe atla

Kayıtlar

Mart, 2016 tarihine ait yayınlar gösteriliyor

Regular Expressions

  Yazılım dünyasında bazı kavram ve yöntemler, o kadar geniş bir kullanım alanına sahiptirler ki, kullanılan dilden bağımsız olarak geliştirilmişlerdir. Her yazılım dili geliştiricisi bu yöntemi hazır olarak kullanır ve birçok kişi tarafından bilinirler.  Regular Expressions  bu kavramların belki de en çok bilinenlerindendir. Bu bilinirlik, kullanma noktasında aynı paralellikte değildir. IT profesyonelleri dahil kullananların birçoğu da gerçekte bilmeden kopyala-yapıştır ile hazır oluşturulmuş regExp örneklerini kullanırlar.  Günümüzde dört ayrı kullanım alanından söz edebiliriz. İstemci tarafında belli alanlarda veri girişi sırasında verinin kalite kontrolünün yapılmasında, Metin içinde arama yapılmasında, Metin içinde değişiklik yapılmasında Veri kalitesi işlemlerinde. Tabii   metin   çok genel anlamdadır, bir text dosya da olabilir, veri tabanındaki bir alan da. Gelelim somut örneklere. Öncelikle başta belirttiğim kopyala-yapıştır ile kullanmaya örnek verelim.  ep

Türkçe doğal dil işleme, derin öğrenme, Julia ve farkındalıklar üzerine

Ülkemizde son günlerde daha da artan terör olaylarında şehit olanlara Allah'tan rahmet, geride bıraktıklarına başsağlığı ve sabır diliyorum. Her şeye rağmen, geride kalanlar olarak işlerimizi daha iyi yaptığımız zaman, bu zorlu günlerden bütün kayıplarımıza rağmen, başımız dik çıkma imkanı bulacağımıza inanıyorum. Türkçe derlem/corpus problemi Bilgi teknolojileri konusunda çalışan bir kişi olarak, yıllardır  ülkemizde belli alanlarda ilerleme olmadığını veya gelişmiş ülkelerle karşılaştırıldığında az ilerleme olduğunu görüyorum. Bunun temel sebebi olarak, Türkiye'deki iş hayatının üretmek üzerine değil, tüketmek üzerine kurulduğu konusunda uzun tartışmalar, konuşmalara şahit olduğum çoktur. Doğal dil işleme ve buna dayalı ürün ve hizmetlerin uygulanması konusunda teknolojisini takip ettiğimiz ülkelerdeki gelişmelerin çok gerisinde kalmamızın nedeni, bunun en uç örneklerinden birisi olarak görmüşümdür. Kendi dilimiz ile ilgili çok teknik ve uzun çalışmalar

Bütün Yazılarım

Son zamanlarda gelişmeler hızlandıkça, durup düşünmek hatta okuyup, yazmak için daha az zaman buluyor insan. Tam da bu yüzden okumak daha da önemlisi yazmak hiç olmadığı kadar önemli hale geldi. Ben de bu kapsamda elimden geldiğince bir şeyler yapmaya çalışıyorum. Geriye dönüp baktığımda, ulaşımında kolaylık olması açısından farklı yerlerde bulunan yazılarımdan bir derleme yapma zamanı geldi diye düşündüm. Sıralama da herhangi bir ayırt edicilik yoktur. NoSQL’in Kısa Tarihi ElasticSearch İle Metin İşleme   Veri Analizinde Yeni Alışkanlıklar Büyük Veri İçindeki Nadir Görülen Olayların Keşfedilmesi Büyük Boyutlu Veri İle Sınıflandırma Problemi SparkR ile Verinin Keşfi ve Modelleme Deep Learning e Nasıl Vardık? Analytics Karmaşası SAS nedir? Büyük Veri, Veri Bilimi ve Ontoloji   Büyük Veri İçindeki Benzer Öğeleri Bulmak   Bilgi Çağında Otomasyon Devrimi   R Programlama Dili Veri kalitesi işlemlerinde bulanık mantığın (Fuzzy logic) kullanılması Veriden Bilgiy

R ile Veri Analizinde Tematik Harita Kullanımı

  Geçenlerde SparkR ile veri analizi ve modellemesi konusunda hazırladığım bir tutorial ı sizlerle paylaşmıştım. Orada harita kullanarak veri analizi yapma konusunda bir örnek vermiştim. Bu yazıda konuyu biraz daha açacağım. Yazdığım kodlara ve kullandığım verilere github hesabım dan erişebilirsiniz. Öncelikle Tematik Harita nedir? ile başlayalım. İngilizce kelimeler Geographic Map ile tema veya konu anlamına gelen Theme kelimelerinin bir bileşimini ifade eder. Belli bir konu veya temayı baz alan haritalara verilen genel bir isimdir. Anlatımı somutlaştırmak için yakın zamanda ülkemizde yapılan seçimleri ele alacağız. Partilerin Türkiye genelinde aldıkları oy verilerini alarak, hem seçimlerde partilerin güçlü yada zayıf oldukları illeri harita üzerinde söze gerek kalmadan göstereceğiz, hem de ardışık iki seçim arasındaki alınan sonuçları herbir parti için yan yana haritada göstererek üzerinden analiz yapılacak bir metaryel üreteceğiz. Temel Adımlar Haritada gös

Büyük Boyutlu Veri İle Sınıflandırma Problemi

  Veri madenciliği ve makine öğrenmesinde en sık çözülen problem tipleri içinde yer alan sınıflandırma, kullanılan yöntemler açısından oldukça çeşitlilik gösterir. Karar ağaçlarından, regresyona, yapay sinir ağlarından, clustering (öbekleme/gruplama/kümeleme) e bir çok farklı yöntem ile çözülme imkanı olan sınıflandırma problemlerinde klasik yöntemlerin işe yaramadığı problemlerle haşır neşir olduğumuz bir dönemin içerisindeyiz. Bunun temel sebebi, sınıflandırma problemlerinin genel öğreticili öğrenme kategorisinde ele alınması ama veri boyutunun büyümesi ile eldeki verinin test ve eğitim seti olarak bölünmesi, bu setlerin geneli ifade etmesindeki güçlük nedeni ile imkansız hale gelmesidir. Bir de büyük verinin temel özelliklerinden olan hızlı bir değişimin gerçekleşiyor olması klasik çözümleri iyice işlevsiz bırakıyor. Geçenlerde ülkemizin tanınmış bir e-ticaret sitesi için yaptığım Proof Of Concept (POC) çalışmasında, site üzerinden müşterilere sunulan ürünlerde

Verinin Keşfi

Son zamanlarda çokça duyduğumuz; Spark, R, veri bilimi, verinin görselleştirilmesi, SparkR, harita üzerinde veri gösterimi, veri notebook ları . Anlayacağınız tekmili birden. Bunların hepsini nasıl yapılır diye merak edenler için uygulamalı olarak yaptım ve paylaştım. Beş bölüme ayırdığım bu tutorial serisi şu bölümlerden oluşuyor. Bu bölümler Data Notebook ile yazıldığı için ipynb uzantılı dosyaları okuyabilen bir browser tarayıcı ile okunmalıdır. Ana sayfa sparkR Notebooks Bölümler; Verinin yüklenmesi ve SparkR ın başlatılması Spark SQL Data Frame operasyonları SparkR ve ggplot2 ile veri analizi SparkR ile Lineer modelleme Sizlere faydalı olmasını umuyorum.

Doğru container yapısı

Veri analizi insanları ile yazılım geliştirme insanları uzun yıllar boyu türk filmlerinin o ünlü repliğindeki ifade ile "ayrı dünyaların insanları" oldular. Bu nedenle yıllarını veri analizi ile geçiren bir kişi ile yıllarını yazılım geliştirme ile geçiren iki profesyonelin alet kutularında kullandıkları alet edavatların kesişim kümesini aldığınızda boş küme çıkma olasılığı yüksekti. Bu nedenle, 28 Kasım da Istanbul Spark Meetup etkinlikleri kapsamında yapılan ve IBM Spark Tech Center dan Principle Data Solutions Engineer Chris Fregly nin Spark 1.6 daki yenilikler ve sonrası ile ilgili yaptığı sunum, ayrı dünyaların geri dönülemez bir biçimde birleştiğini bir kere daha gösterdi. Gelen kişi tam bir "developer" du. Sunumun içinde yer alan demo ortamı katılımcılarla Docker container olarak paylaşıldı. İçerik; Kafka, Spark, Cassandra, Redis, Parquet, ElasticSearch, Zeppelin gibi birçok bileşenden oluşuyordu.   Pratik Docker container da oluştur

İş zekası süreçlerinin dönüşümü

Geçmiş bir yazımda analitik (analytics) kelimesinin BT dünyasında kullanımını ele almıştım. Bu yazımda iş zekasını (business intelligence) ele alacağım. Önce iş zekasına kitap tanımı olarak bakacağım  sonrasında ise kendi yorumumu ekleyeceğim. Kitapta yazan Wikipedia tanımına bakarsak; " İş Zekası veya kısaca: BI , iş amaçları için ham veriyi anlamlı ve kullanışlı bilgiye dönüştüren teoriler, metodolojiler, süreçlerin, mimarilarin ve teknolojilerin bir kümesidir. " Bu genel tanıma bakıldığında excelde verilerin iş amaçlarına uygun hale getirilmesi, uygun formatta tablo, grafik, pivot tablo ile yönetime karar vermede destek olan her türlü raporlama iş zekası çalışması örneğidir. Tanım o kadar geniştirki veri madenciliği, tahminleme çalışmaları gibi hayli karmaşık teknik çalışmalar da tanıma uygun düşmektedir. Gerçekte anlamı Gerçekte ise iş zekası, şirket veya kurum yönetiminin istediği rapor (geçmiş, şimdi) ve tahminlemelerin (gelecek) mümkün oldu

Veri analizinde yeni alışkanlıklar

Veri işlemede kullanılan alet ve yöntemler baş döndürücü bir hızla gelişip değişiyor. Bunun sonucu olarak, eski adet ve alışkanlıklar ile devam ettirmeye çalıştığımız iş süreçlerinde çıkan sıkıntılar ve çıkmazlar sıradanlaştı. Bu yazıda, özellikle veri analizi konusunda çıkan sıkıntıları aşmak için alet kutumuza girmesi gerekli olan göreceli yeni üç aletten;  data notebooks  ve  polyglot diller den ve bu dünyanın getirdiği ek zorlukları aşmak için alet kutumuzda olması gereken  docker container  lardan bahsedeceğiz. Çok dillilik (Polyglot) Son zamanlarda büyük veri işleme ile ilgili isminden sıkça bahsettiğimiz birçok alet (tool), kendi dilleri ile birlikte geldi. Bunlara alana özel diller (domain specific languages – DSL) deniyor ve yazılım dilleri arasında geçiş yapılmayan tutucu eski günleri geride bıraktığımızı haber veriyorlar. Ayrıca, birçok yerde; R dili mi, Python mu tartışmaları yaşanırken, gerçek şu ki, bu iki dilin de aynı projede hatta aynı kişiler tarafından kullanıl