Ana içeriğe atla

Kayıtlar

Nisan, 2014 tarihine ait yayınlar gösteriliyor

Büyük veri içindeki nadir görülen olayların keşfedilmesi

Bu yazımızda, veri madenciliği çalışmalarında sıkça karşılaşılan " büyük miktarda veri içinde nadir görülen olayların keşfedilmesi " problemlerini çözerken dikkat etmemiz gereken önemli bir konuyu ele alacağız. İstatistik literatüründe çoklu karşılaştırma problemi ,   çoklu hipotez testi gibi isimlerle anılan bu problemler veri madenciliği alanında aktif araştırma konuları içinde yer almaktadır [ 1 ]. Değişik uygulama alanları olmakla birlikte, biz burada bir örnek üzerinden temel problemi anlatmaya çalışacağız. Büyük veri içinde nadir görülen olayların konu bağlamında incelenmesinin güzel bir örneğini, Devasa Veri Setlerinde Madencilik [ 2 ] kitabında görüyoruz. Dünya süper gücü olan bir devletin, bütün dünyayı bir çok veri toplama yöntemi ile sürekli izlediğini varsayalım. Toplanan bu veriler işlenmekte, kişilerin ne yaptığı konusunda veri madenciliği yöntemleri ile otomatik çıkarımlar yapılmakta, çıkan sonuçlar olası tehdit değerlendirmeleri olarak istihbarat serv

Malaysia Airlines Flight 370

Pekin’e varmak üzere 8 Mart 2014 de Kuala Lumpur’dan havalanan 153 ü Çin vatandaşı olmak üzere 15 ülkeden 227 yolcu ve 12 mürettebat olmak üzere toplam 239 kişi taşıyan Boeing 777-200 tipi yolcu uçağı oniki gündür kayıp. Uçağın ve yolcuların akıbeti konusunda somut bir açıklama henüz yok. Olayın ilk günlerinde, bilinmeyen bir nedenle düştüğü düşünülen ve normal rotasında güney çin denizinde yapılan kurtarma ve arama çalışmaları son birkaç gündür uçağın rotasının ortadan kaybolmadan hemen önce değiştirildiği iddiası ile farklı bir boyut kazandı. Artık birçok değişik senaryonun düşünüldüğü ve konuşulduğu bir olay haline geldi. Bugün itibari ile 26 ülkenin araştırma ve arama eforuna katıldığı, dünya tarihindeki en karmaşık arama operasyonlarından birini, pazarlama ve satış ağırlıklı söylemlerden uzakta kalarak, büyük veri teknolojilerinin gelmiş olduğu noktadan değerlendirmesini yapmaya çalışacağız. Veri Kaynakları İlişkisel Veritabanları ; Öncelikle normal

Büyük Veri, Veri Bilimi ve Ontoloji

Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler için de farklı bir görüş alma fırsatı sunulmaktadır. Büyük Veri Kavramı 1960 lı yıllardan itibaren gelişme evresinde olan veri analizi ve entegrasyonu çalışmalarının bir bütün olarak değerlendirilmesi ile Veri Bilimcisi ( ing. Data Scientist ) [1] teriminin 1996 yılında ortaya çıkmasını ilişkilendirebiliriz   [2, 7]. O yıllar, büyük miktarda verinin toplandığı ilişkisel veri tabanlarında önceden fark edilemeyen bilginin keşfedilmeyi beklediği yıllar olarak da hatırlanır [3] . Büyük verinin anlamlandırılması ve bilgiye dönüştürülme süreci, önceki bilimsel