Hadoop Nedir?

Hadoop Nedir?
01 Ara 2020

Hadoop Nedir ve Big Data için Neden Önemlidir?

Büyük Veri (Big Data)’nın gelişimi teknoloji dünyasında daha önceden bilinmeyen yeni alanlar ve çözümler yarattı. Yakın geçmişte, sunucuların müthiş büyüklükteki veriyi gerçek zamanlı olarak işlemesi, sıralaması ve depolaması gerektiği görüldü. Bu ihtiyaca bir çözüm olarak, büyük veri setlerini kolayca işleyebilen Apache Hadoop doğdu. GTech’in bu yazısında Hadoop’tan, temel bileşenlerinden ve kullanım alanlarından bahsedeceğiz.

Hadoop

Hadoop, yalın tabiriyle, sıradan sunucularda büyük verileri işlemek amacıyla kullanılan açık kaynak kodlu bir kütüphanedir. Her türlü veri için devasa depolama, çok yüksek işlem gücü ve neredeyse sınırsız sayıda eşzamanlı görevleri yönetme yeteneği sağlar. Dağınık bir bilgi işlem ortamında büyük verileri verimli bir şekilde yönetmenizi ve işlemenizi mümkün kılar. Hadoop dört ana modülden oluşur.

  1. HDFS (Hadoop Distributed File System)

Hadoop’un dosya sistemidir. Sıradan sunuculardan oluşan kümeler üzerinde büyük verileri işlemek amaçlı kullanılan, dağıtılmış bir dosya sistemidir. Geleneksel dosya sistemlerine kıyasla daha iyi veri çıkışı sağlar. Sıradan sunucu disklerini bir araya getirir ve büyük sanal bir disk oluşturur. Bu da çok büyük boyutlardaki dosyaların saklanmasını ve işlenmesini mümkün kılar.

  1. YARN (Yet Another Resource Negotiator)

YARN, zamanlanmış görevleri, genel yönetimi ve küme düğümlerini (Cluster Nodes) ve diğer kaynakları izlemeyi kolaylaştırır.

  1. MapReduce

Hadoop MapReduce modülü, programların eş zamanlı veri işlemesine yardımcı olur. İş parçacıkları küme üzerinde dağılarak aynı anda işleme yaparlar. MapReduce’un Map görevi, giriş verilerini anahtar-değer çiftlerine dönüştürür. Reduce görevi girdiyi alır, bilgileri bir araya getirir ve sonucu üretir. Hadoop’un büyük gücü burada ortaya çıkar. İşlenen dosyaların okunması her zaman ilgili düğümün yerel diski üzerinden olduğu için, ağ trafiği meşgul edilmez. Üstelik, kümedeki düğüm sayısı arttıkça performans da doğru orantılı olarak artar.

  1. Hadoop Common

Büyük veri işlemesinde yardımcı olan ve tüm Hadoop modüllerini destekleyen ortak modüldür.

Big Data içi Hadoop Neden Önemli?

Hadoop, büyük veri işleme için harika bir çözümdür ve büyük verilerle uğraşan işletmeler için önemli bir araçtır.

  • Farklı formatlardaki her türden veriyi hızlı bir şekilde depolama ve işleme yeteneğine sahiptir.
  • Hadoop’un dağıtılmış işleme modeli, büyük verileri hızlı bir şekilde işler. Ne kadar çok bilgi işlem düğümü kullanırsanız, o kadar fazla işlem gücüne sahip olursunuz.
  • Donanım arızasına karşı korumalıdır. Bir düğüm arızalanırsa, işler otomatik olarak diğer düğümlere yeniden yönlendirilir. İşlemin başarısız olmadığından emin olunur. Tüm verilerin birden çok kopyası otomatik olarak saklanır.
  • Geleneksel ilişkisel veri tabanlarından farklı olarak, verileri depolamadan önce ön işlem yapmanıza gerek yoktur. İstediğiniz kadar veri depolayabilir ve daha sonra nasıl kullanacağınıza karar verebilirsiniz. Bu, metin, resim ve video gibi yapılandırılmamış veriler için dahi geçerlidir.
  • Maliyeti düşüktür. Açık kaynak framework’u ücretsizdir. Büyük miktarda veriyi depolamak için sıradan donanımları kullanır.
  • Büyütmeye elverişlidir. Daha fazla veriyi işlemek için sisteminize düğümler ekleyerek kolayca büyütebilirsiniz.

Hadoop’un Büyük Veri Araçları

Hadoop’un büyük verileri işleme becerisini geliştiren açık kaynaklı birçok araç vardır.

  • Hive: Hadoop’un dosya sisteminde depolanan büyük veri kümelerini işlemek için veri ambarıdır.
  • Zookeeper: Monitoring aracıdır.
  • Hbase: Hadoop için açık kaynaklı bir ilişkisiz veritabanıdır.
  • Flume: Büyük miktarda log verisinin akışını sağlayan dağıtılmış bir hizmettir.
  • Sqoop: Hadoop ve ilişkisel veritabanları arasında veri taşımak için kullanılan bir komut satırı aracıdır.
  • Pig: Karmaşık veri dönüşümlerini Java’ya ihtiyaç olmadan gerçekleştirmeyi sağlar. Kullanılan yazılım dili Pig Latin’dir.
  • Oozie: Hadoop işlerinin yönetimini kolaylaştıran planlama sistemidir.
  • Hcatalog: Farklı veri işleme araçlarından gelen verileri düzenlemek için kullanılan bir depolama ve tablo yönetimi aracıdır.

Hadoop, özellikle milyonlarca veri akan ağlarda, büyük veri işlemekte oldukça etkilidir. Çok miktarda veriyle uğraşan şirketler için son derece kullanışlı bir araçtır. Günümüzde Amazon, Facebook ve LinkedIn gibi devler de büyük verilerini Hadoop ile analiz ediyor.

GTech, Büyük Veri ve İleri Analitik Hizmetleri ile firmanızın büyük veri ihtiyaçları için en uygun büyük veri platformunun ( Hadoop, NoSQL vb.) ve kapasitesinin belirlenmesi ve altyapısının oluşturulması için danışmanlık hizmetleri sağlar. Oluşturulan büyük veri ekosisteminin gelişimi ve devamlılığı için de bakım desteği sunar.

Hadoop (Oracle BDA, Cloudera vb.) ortamlarının kurulumu, Kerberos ve LDAP güvenlik ayarları, Elasticsearch, Cassandra, MongoDB gibi teknolojilerin kurulumu/bakımı, Veri göllerinin oluşturulması, Veri analitiği desteği, Oracle Big Data SQL teknolojisi ile Oracle Veritabanları ve büyük veri ortamlarının entegre edilmesi gibi konularda demo talebinde bulunabilirsiniz.