Veri Dünyası

Kayıtlar

Ocak, 2017 tarihine ait yayınlar gösteriliyor

Apache Spark ile Apache Kafka entegrasyonu, kısa bir bakış

Günümüzde akan verinin dağıtık işlenmesinde en çok tercih edilen açık kaynak kodlu yazılımlardan olan Apache Spark ile, uzun süre diskte saklanabilen esnek dağıtık kuyruk yapısı sunan Apache Kafka nın entegrasyonu bu yazının konusu. Konu akan veri olunca, bu verinin sistemler arasında akışı ve bu sırada işlenişi ana işlem haline geliyor. Verinin Kafka da bir süre tutulması, Spark da işlenmesi ve sonrasında işlenen verinin saklanması döngüsü süreklilik arz eden ve 7x24 süren bir süreç olduğundan, normal batch veri işleme mantığı ile çözülemeyecek bir problemdir. Veri okunması Kafka dan verinin okunması consumers (tüketiciler) aracılığı ile olurken, işlenen verinin Kafka ya yazılması producers (üreticiler) aracılığı ile oluyor. Tüketiciler ile ilgili Spark ın kendi API si içinde org.apache.spark.streaming.kafka.KafkaUtils oldukça kullanışlı. Tabii burada eski createStream ile yeni createDirectStream metodları arasındaki farka dikkat edilmeli. Akan verinin ...

Devamı