Ana içeriğe atla

Kayıtlar

Apache Spark ile Apache Kafka entegrasyonu, kısa bir bakış

Günümüzde akan verinin dağıtık işlenmesinde en çok tercih edilen açık kaynak kodlu yazılımlardan olan  Apache Spark  ile, uzun süre diskte saklanabilen esnek dağıtık kuyruk yapısı sunan  Apache Kafka  nın entegrasyonu bu yazının konusu. Konu akan veri olunca, bu verinin sistemler arasında akışı ve bu sırada işlenişi ana işlem haline geliyor. Verinin Kafka da bir süre tutulması, Spark da işlenmesi ve sonrasında işlenen verinin saklanması döngüsü süreklilik arz eden ve 7x24 süren bir süreç olduğundan, normal batch veri işleme mantığı ile çözülemeyecek bir problemdir. Veri okunması Kafka dan verinin okunması consumers (tüketiciler) aracılığı ile olurken, işlenen verinin Kafka ya yazılması producers (üreticiler) aracılığı ile oluyor. Tüketiciler ile ilgili Spark ın kendi API si içinde org.apache.spark.streaming.kafka.KafkaUtils oldukça kullanışlı. Tabii burada eski createStream ile yeni createDirectStream metodları arasındaki farka dikkat edilmeli. Akan verinin işlenmesinde eldeki
En son yayınlar

NOSQL’İN KISA TARİHİ

NoSQL’in kısa tarihi Eski Güzel Günlerin Bitişi Eskilerin geçmişi “ah o eski güzel günler” diye andığını ve yeniler için ise “o eski güzel günlerin” henüz gelmediğini bilerek yaşadığımızda, her yeni oluşumun kendine has güzellikleri ile geldiğini de bilmeliyiz. Bilgi teknolojileri dünyasının eski güzel günlerinde, eldeki problemin çözümü için gerekli olanlar az sayıda seçenek arasından seçilirdi. Genel maksatlı bir programlama dili, bir veri tabanı çözümü, bir donanım seçilir ve gerisi şelale tipi proje planının uygulanmasından ibaret olurdu. Özellikle 2000 li yılların başından itibaren yaşanan gelişmeler ile “eski güzel günleri” bir daha gelmemek üzere geride bıraktık. Hayatın ve bilginin hızlı akışı ile eski alışkanlıklar bir bir değişiyor. Bu oturmuş bir düzende kaçınılmaz olarak “eskiler” ve “yeniler” arasında bir mücadele yaşanmasına da yol açıyor. Eskiler derken, her şeyi kastediyoruz, insanlar, teknolojiler, yöntemler, alışkanlıklar. Tek bir yazıya sığmayacak kadar g

Elasticsearch ile metin işleme

Bu yazıda, popüler doküman veri tabanlarından  Elasticsearch  (ES) ile metin işleme ve sorgulama konusunda bazı önemli noktaları sizlerle paylaşmak istiyorum. Java da yazılmış olan açık kaynak kodlu metin arama motoru olan  Apache Lucene  kullanılarak geliştirilen Elasticsearch, rakibi  Apache Solr  ile ciddi bir rekabet içinde. Bu yazı Türkçe kaynaklarda fazlaca değinilmediğini düşündüğüm, Elasticsearch ile metin verisinin işlenmesinin detaylarına bir giriş niteliğinde olacak. Özellikle bu alanda yabancı çözümlerin Türkçe metinlere uygun çözümler içerip içermediği konusunda kafa yormuş ve daha önceden metin işleme konusu ile ilgili geliştirme yapmış bir kişi olarak, Elasticsearch ü bu açıdan oldukça iyi bulduğumu söyleyebilirim. Metin işlemenin temel adımları Metnin hangi dilde olduğundan bağımsız olarak, metin işlemede temel adımlar parantez içinde ES dokümanlarında verilen isimleri ile birlikte şu şekildedir. Dilin ve mümkünse alanın belirlenmesi, Türkçe metin, spor, ede