Ana içeriğe atla

Kayıtlar

doğal dil işleme etiketine sahip yayınlar gösteriliyor

Elasticsearch ile metin işleme

Bu yazıda, popüler doküman veri tabanlarından  Elasticsearch  (ES) ile metin işleme ve sorgulama konusunda bazı önemli noktaları sizlerle paylaşmak istiyorum. Java da yazılmış olan açık kaynak kodlu metin arama motoru olan  Apache Lucene  kullanılarak geliştirilen Elasticsearch, rakibi  Apache Solr  ile ciddi bir rekabet içinde. Bu yazı Türkçe kaynaklarda fazlaca değinilmediğini düşündüğüm, Elasticsearch ile metin verisinin işlenmesinin detaylarına bir giriş niteliğinde olacak. Özellikle bu alanda yabancı çözümlerin Türkçe metinlere uygun çözümler içerip içermediği konusunda kafa yormuş ve daha önceden metin işleme konusu ile ilgili geliştirme yapmış bir kişi olarak, Elasticsearch ü bu açıdan oldukça iyi bulduğumu söyleyebilirim. Metin işlemenin temel adımları Metnin hangi dilde olduğundan bağımsız olarak, metin işlemede temel adımlar parantez içinde ES dokümanlarında verilen isimleri ile birlikte şu şekildedir. Dilin ve mümkünse alanın belirlen...