Datam var ama big mi bilmiyorum


Merhabalar,

Bu cümleyi geçen gün duyduğumuzda biraz gülümsedik. Türkçe -İngilizce karışımından değil,insanlar hala big data diyince veri büyük olduğundan dolayı big data deniyor sanıyor ona gülümsüyoruz.

Yıllardan 2007 Google Map/Reduce mantığını bir makale ile duyurdu,dünya değişti derlerya öyle oldu. Fakat nedense yıl oldu 2017 hala Türkiye’de konuşulan konular ‘big data nedir’, ‘Pig nedir’,’Spark nedir’. Bunları gördükçe üzülüyorum. Spark 2.1 versiyonunu çıkarttı,insanlar 200 node’lu clusterda cassandra gibi NoSql veritabanları kullanıyor biz hala nedir sorusundayız. Bu sorudayız ve hala big data nediri anlamadık,ona üzülüyorum. Ne kadar artık konuşulması saçma desemde big data kavramında sadece tek cümle belirtmeden geçemeyeceğim. Big data sadece büyük veri demek değildir. Verinin büyüklüğünün yanında yapısıda önemlidir,değeride önemlidir,verinin çeşitli,unstructured olabilmeside,büyüyebilmeside,bir eğiminin olmasıda gerekmektedir diyip big data nedire noktayı koymak istiyorum.

 

Peki bunlar var firmamızın datası evet  ‘big data ‘ diyorsak ne yapmalıyız ?

Birinci aşama ‘problem belirlemek’

Herşeyin öncesinde aslında bir problem yok mudur? Bunun içinde bir probleminiz,aslında ‘big data’ dünyasında bir çok probleminiz vardır. Siz datayı big data ortamına atalım aylar sonra bakarız demeniz saçma olacaktır. Öncelikle buna ihtiyacın sorgulanması gerekmektedir. Çünkü bu aşamada problemenizi çözerken size yardımcı olmayacak veri kümelerini almayacaksınız.

İkinci aşama ‘kontrol’

Kontrol bizde olmalı,veride değil. Ne demek istediğim anlaşılmadı ise bir örnek vermek istiyorum.Veri büyüyor haftalık terabaytlarca veri büyüyor fakat günlük olarak değişiyor bazen 100 gb günlük trafikte veri alırken bazen 60 gb larda kalıyor. Storage çok fazla değilse ve ortalamalara göre bir haftalık storage kaldı ise ve sizde yeni disk ekleme kısmında hata alıyor veya süreç uzun ise,kontrol sizde değil veridedir.Veriye büyüme diyemezsiniz.

 

Üçüncü aşama ‘veri tutarılığı’

Büyük veri ile çalışmanın en zor kısımlarından birisidir bu kısım. Veriyi silmeden,sürekli erişime tutmak zorundasınızdır.Onun için altyapınızın düzgün tasarlanmış,sunucu desteklerinizin iyi olması gerekmektedir. İlk aşamada bahsedilen yapı olduğunu varsaydığımızda artık donanımsal olarak bir üst kısma bu aşamada dönmemeniz gerekmektedir.

 

Dördüncü aşama ‘veriyi değerine göre koymak’

Büyük veri dediğimiz şey zaten verinin bir anlam kazanabilecek olması idi fakat buradaki dediğimiz yüksek değer. Mesela sizin realtime yapılacak bir analiz istiyorsanız cassandra veritabanı gibi bir NOSQL veritabanlarına gereken veriyi koymanız lazımken,veriden günlük-haftalık analiz yapacak iseniz HDFS’e o veriyi atmanız sizin için çok daha sağıklı olacaktır.

 

Beşinci aşama ‘belirlenen probleme çözüm arayışı’

Verilerimiz tutarlı şekilde kayıt ediliyor doğru veritabanında istenildiği şekilde kullanmak üzere yapı oluşturuldu ve veri akıyor. Şimdi probleme dönmemiz ve çözüme başlamamız için en mükemmel an. Artık elimizde problemi çözmek için bilgi ve veri ikisi bir arada.Hangi platformda veriyi analiz edeceğiz. Uzun uzun java ile Map/Reduce jobları mı yazacağız yoksa Spark ile probleme özel oluşmuş kolaylıklar ile mi gideceğiz. Yazıdanda anlaşılacağı üzere big data problemlerinde Spark her işinizin çözümü noktasında başı çekiyor.

 

Daha sonraki aşamalar probleme özgü kaldığı için,bu yazıyı burada bırakıyorum. Daha sonraki yazılarımızda problemlere özgü yaklaşımlar ,bizim firmalara sunmuş olduğumuz çözümler ile tekrardan burda olacağız.

 

 

Detaylı bilgi için lütfen bize yazın.

contact@vdatalab.com

Leave a comment

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir