Ana içeriğe atla

Kayıtlar

Regular Expressions

  Yazılım dünyasında bazı kavram ve yöntemler, o kadar geniş bir kullanım alanına sahiptirler ki, kullanılan dilden bağımsız olarak geliştirilmişlerdir. Her yazılım dili geliştiricisi bu yöntemi hazır olarak kullanır ve birçok kişi tarafından bilinirler.  Regular Expressions  bu kavramların belki de en çok bilinenlerindendir. Bu bilinirlik, kullanma noktasında aynı paralellikte değildir. IT profesyonelleri dahil kullananların birçoğu da gerçekte bilmeden kopyala-yapıştır ile hazır oluşturulmuş regExp örneklerini kullanırlar.  Günümüzde dört ayrı kullanım alanından söz edebiliriz. İstemci tarafında belli alanlarda veri girişi sırasında verinin kalite kontrolünün yapılmasında, Metin içinde arama yapılmasında, Metin içinde değişiklik yapılmasında Veri kalitesi işlemlerinde. Tabii   metin   çok genel anlamdadır, bir text dosya da olabilir, veri tabanındaki bir alan da. Gelelim somut örneklere. Öncelikle başta bel...

Türkçe doğal dil işleme, derin öğrenme, Julia ve farkındalıklar üzerine

Ülkemizde son günlerde daha da artan terör olaylarında şehit olanlara Allah'tan rahmet, geride bıraktıklarına başsağlığı ve sabır diliyorum. Her şeye rağmen, geride kalanlar olarak işlerimizi daha iyi yaptığımız zaman, bu zorlu günlerden bütün kayıplarımıza rağmen, başımız dik çıkma imkanı bulacağımıza inanıyorum. Türkçe derlem/corpus problemi Bilgi teknolojileri konusunda çalışan bir kişi olarak, yıllardır  ülkemizde belli alanlarda ilerleme olmadığını veya gelişmiş ülkelerle karşılaştırıldığında az ilerleme olduğunu görüyorum. Bunun temel sebebi olarak, Türkiye'deki iş hayatının üretmek üzerine değil, tüketmek üzerine kurulduğu konusunda uzun tartışmalar, konuşmalara şahit olduğum çoktur. Doğal dil işleme ve buna dayalı ürün ve hizmetlerin uygulanması konusunda teknolojisini takip ettiğimiz ülkelerdeki gelişmelerin çok gerisinde kalmamızın nedeni, bunun en uç örneklerinden birisi olarak görmüşümdür. Kendi dilimiz ile ilgili çok teknik ve uzun çalışmalar...

Bütün Yazılarım

Son zamanlarda gelişmeler hızlandıkça, durup düşünmek hatta okuyup, yazmak için daha az zaman buluyor insan. Tam da bu yüzden okumak daha da önemlisi yazmak hiç olmadığı kadar önemli hale geldi. Ben de bu kapsamda elimden geldiğince bir şeyler yapmaya çalışıyorum. Geriye dönüp baktığımda, ulaşımında kolaylık olması açısından farklı yerlerde bulunan yazılarımdan bir derleme yapma zamanı geldi diye düşündüm. Sıralama da herhangi bir ayırt edicilik yoktur. NoSQL’in Kısa Tarihi ElasticSearch İle Metin İşleme   Veri Analizinde Yeni Alışkanlıklar Büyük Veri İçindeki Nadir Görülen Olayların Keşfedilmesi Büyük Boyutlu Veri İle Sınıflandırma Problemi SparkR ile Verinin Keşfi ve Modelleme Deep Learning e Nasıl Vardık? Analytics Karmaşası SAS nedir? Büyük Veri, Veri Bilimi ve Ontoloji   Büyük Veri İçindeki Benzer Öğeleri Bulmak   Bilgi Çağında Otomasyon Devrimi   R Programlama Dili Veri kalitesi işlemlerinde bulanık mantığın (Fuzzy logic) kullanılm...

R ile Veri Analizinde Tematik Harita Kullanımı

  Geçenlerde SparkR ile veri analizi ve modellemesi konusunda hazırladığım bir tutorial ı sizlerle paylaşmıştım. Orada harita kullanarak veri analizi yapma konusunda bir örnek vermiştim. Bu yazıda konuyu biraz daha açacağım. Yazdığım kodlara ve kullandığım verilere github hesabım dan erişebilirsiniz. Öncelikle Tematik Harita nedir? ile başlayalım. İngilizce kelimeler Geographic Map ile tema veya konu anlamına gelen Theme kelimelerinin bir bileşimini ifade eder. Belli bir konu veya temayı baz alan haritalara verilen genel bir isimdir. Anlatımı somutlaştırmak için yakın zamanda ülkemizde yapılan seçimleri ele alacağız. Partilerin Türkiye genelinde aldıkları oy verilerini alarak, hem seçimlerde partilerin güçlü yada zayıf oldukları illeri harita üzerinde söze gerek kalmadan göstereceğiz, hem de ardışık iki seçim arasındaki alınan sonuçları herbir parti için yan yana haritada göstererek üzerinden analiz yapılacak bir metaryel üreteceğiz. Temel Adımlar Haritada...

Büyük Boyutlu Veri İle Sınıflandırma Problemi

  Veri madenciliği ve makine öğrenmesinde en sık çözülen problem tipleri içinde yer alan sınıflandırma, kullanılan yöntemler açısından oldukça çeşitlilik gösterir. Karar ağaçlarından, regresyona, yapay sinir ağlarından, clustering (öbekleme/gruplama/kümeleme) e bir çok farklı yöntem ile çözülme imkanı olan sınıflandırma problemlerinde klasik yöntemlerin işe yaramadığı problemlerle haşır neşir olduğumuz bir dönemin içerisindeyiz. Bunun temel sebebi, sınıflandırma problemlerinin genel öğreticili öğrenme kategorisinde ele alınması ama veri boyutunun büyümesi ile eldeki verinin test ve eğitim seti olarak bölünmesi, bu setlerin geneli ifade etmesindeki güçlük nedeni ile imkansız hale gelmesidir. Bir de büyük verinin temel özelliklerinden olan hızlı bir değişimin gerçekleşiyor olması klasik çözümleri iyice işlevsiz bırakıyor. Geçenlerde ülkemizin tanınmış bir e-ticaret sitesi için yaptığım Proof Of Concept (POC) çalışmasında, site üzerinden müşterilere sunulan ürünl...

Verinin Keşfi

Son zamanlarda çokça duyduğumuz; Spark, R, veri bilimi, verinin görselleştirilmesi, SparkR, harita üzerinde veri gösterimi, veri notebook ları . Anlayacağınız tekmili birden. Bunların hepsini nasıl yapılır diye merak edenler için uygulamalı olarak yaptım ve paylaştım. Beş bölüme ayırdığım bu tutorial serisi şu bölümlerden oluşuyor. Bu bölümler Data Notebook ile yazıldığı için ipynb uzantılı dosyaları okuyabilen bir browser tarayıcı ile okunmalıdır. Ana sayfa sparkR Notebooks Bölümler; Verinin yüklenmesi ve SparkR ın başlatılması Spark SQL Data Frame operasyonları SparkR ve ggplot2 ile veri analizi SparkR ile Lineer modelleme Sizlere faydalı olmasını umuyorum.

Doğru container yapısı

Veri analizi insanları ile yazılım geliştirme insanları uzun yıllar boyu türk filmlerinin o ünlü repliğindeki ifade ile "ayrı dünyaların insanları" oldular. Bu nedenle yıllarını veri analizi ile geçiren bir kişi ile yıllarını yazılım geliştirme ile geçiren iki profesyonelin alet kutularında kullandıkları alet edavatların kesişim kümesini aldığınızda boş küme çıkma olasılığı yüksekti. Bu nedenle, 28 Kasım da Istanbul Spark Meetup etkinlikleri kapsamında yapılan ve IBM Spark Tech Center dan Principle Data Solutions Engineer Chris Fregly nin Spark 1.6 daki yenilikler ve sonrası ile ilgili yaptığı sunum, ayrı dünyaların geri dönülemez bir biçimde birleştiğini bir kere daha gösterdi. Gelen kişi tam bir "developer" du. Sunumun içinde yer alan demo ortamı katılımcılarla Docker container olarak paylaşıldı. İçerik; Kafka, Spark, Cassandra, Redis, Parquet, ElasticSearch, Zeppelin gibi birçok bileşenden oluşuyordu.   Pratik Docker container da oluştur...