Günümüzde akan verinin dağıtık işlenmesinde en çok tercih edilen açık kaynak kodlu yazılımlardan olan Apache Spark ile, uzun süre diskte saklanabilen esnek dağıtık kuyruk yapısı sunan Apache Kafka nın entegrasyonu bu yazının konusu. Konu akan veri olunca, bu verinin sistemler arasında akışı ve bu sırada işlenişi ana işlem haline geliyor. Verinin Kafka da bir süre tutulması, Spark da işlenmesi ve sonrasında işlenen verinin saklanması döngüsü süreklilik arz eden ve 7x24 süren bir süreç olduğundan, normal batch veri işleme mantığı ile çözülemeyecek bir problemdir. Veri okunması Kafka dan verinin okunması consumers (tüketiciler) aracılığı ile olurken, işlenen verinin Kafka ya yazılması producers (üreticiler) aracılığı ile oluyor. Tüketiciler ile ilgili Spark ın kendi API si içinde org.apache.spark.streaming.kafka.KafkaUtils oldukça kullanışlı. Tabii burada eski createStream ile yeni createDirectStream metodları arasındaki farka dikkat edilmeli. Akan verinin işlenmesinde eldeki
NoSQL’in kısa tarihi Eski Güzel Günlerin Bitişi Eskilerin geçmişi “ah o eski güzel günler” diye andığını ve yeniler için ise “o eski güzel günlerin” henüz gelmediğini bilerek yaşadığımızda, her yeni oluşumun kendine has güzellikleri ile geldiğini de bilmeliyiz. Bilgi teknolojileri dünyasının eski güzel günlerinde, eldeki problemin çözümü için gerekli olanlar az sayıda seçenek arasından seçilirdi. Genel maksatlı bir programlama dili, bir veri tabanı çözümü, bir donanım seçilir ve gerisi şelale tipi proje planının uygulanmasından ibaret olurdu. Özellikle 2000 li yılların başından itibaren yaşanan gelişmeler ile “eski güzel günleri” bir daha gelmemek üzere geride bıraktık. Hayatın ve bilginin hızlı akışı ile eski alışkanlıklar bir bir değişiyor. Bu oturmuş bir düzende kaçınılmaz olarak “eskiler” ve “yeniler” arasında bir mücadele yaşanmasına da yol açıyor. Eskiler derken, her şeyi kastediyoruz, insanlar, teknolojiler, yöntemler, alışkanlıklar. Tek bir yazıya sığmayacak kadar g