Büyük Veri Projeleri için Güçlü Bir Çözüm: Apache Ozone

Büyük Veri Projeleri için Güçlü Bir Çözüm: Apache Ozone
23 Oca 2025

Apache Ozone Mimarisi Nedir?

Apache Ozone, büyük veri uygulamaları için tasarlanmış bir nesne depolama (object storage) çözümüdür. Büyük veri iş yükleri, standart iş yüklerinden oldukça farklı bir karaktere sahiptir ve Ozone, Hadoop’u binlerce kümede çalıştırırken elde edilen deneyimlerden doğmuştur.

Günümüzde devasa boyutlara ulaşan veri kümelerini yönetmek ve analiz etmek teknolojinin merkezinde yer alıyor. Bu noktada Ozone, veri depolama ve yönetimi alanındaki özellikleriyle büyük ölçekli veri projeleri için güçlü ve ölçeklenebilir bir çözüm sunarak, veri mühendisliğinin geleceğini yeniden şekillendiriyor. 

Büyük Veri Ortamlarında Depolama Sistemlerinden Beklentiler 

Büyük veri ekosisteminde bir depolama sistemi seçerken dikkat ettiğimiz başlıca kriterler şunlardır: 

Performans: Sistem, yüksek hacimli veri yüklerini verimli şekilde işleyebilmelidir. 

Ölçeklenebilirlik: Yüzlerce petabayt veriye, binlerce düğüme ve milyarlarca objeye kadar genişleyebilmelidir. 

API Uyumluluğu: Örneğin S3 API’siyle ve modern mimarilerle (bulut, konteyner vb.) sorunsuz çalışabilmelidir. 

Şimdi Ozone’un bu beklentileri nasıl karşıladığına detaylıca bakalım. 

Ozone: Büyük Veri İş Yüklerine Uygun Nesne Depolama 

Apache Ozone, büyük veri iş yükleri için optimize edilmiş, ölçeklenebilir (scalable), yedekli (redundant) ve dağıtık (distributed) bir nesne depolama teknolojisidir. 
Öne çıkan özellikleri: 

S3 ve FS Arayüzleri: Hem S3 API hem de dosya sistemi (FS) benzeri arayüzleri destekler. 

Büyük Veri Yüklerine Özel Tasarım: Büyük veri analitiği ve işleme süreçleri için optimize edilmiştir. 

Milyarlarca Obje: Devasa sayıda dosyayı (objeyi) saklayabilecek kapasitede çalışır. 

YARN veya Kubernetes Uyumluluğu: Konteyner tabanlı ortamlarda rahatlıkla kullanılabilir. 

Binlerce Node’a Kadar Ölçeklenebilme: Sisteminizi yatayda büyüterek çok daha fazla veri saklayabilirsiniz. 

Düşük Maliyet: HDFS’e göre daha az donanımla daha çok veriyi saklama imkânı sunar. 

Figure 1: Ozone Mimarisi

Ozone’un Temel Depolama Elemanları: Volume, Bucket ve Key 

Volume: Kullanıcı hesapları veya tenant kavramlarına benzer. Her volume, bir veya birden fazla bucket içerebilir. 

Bucket: Amazon S3 dünyasındaki bucket mantığıyla aynı paralelde işler. Bir bucket, sınırsız sayıda key barındırabilir. 

Key: Dosyaya benzer objelerdir. Her key, belirli bir bucket’a; her bucket da belirli bir volume’e aittir. 

İki Yönetici Bileşen: Ozone Manager (OM) ve Storage Container Manager (SCM) 

Ozone mimarisine baktığımızda, yönetim görevlerini üstlenen iki kritik bileşen görürüz: 

Ozone Manager (OM): Namespace’lerin yönetimini yapar. Bir key (dosya) yazmak istediğinizde, OM size bir block verir ve bu block’un hangi volume/bucket’ta bulunduğunu hatırlar. Yani volume, bucket ve key metadata’sını OM yönetir. 

Storage Container Manager (SCM): Ozone’un replication unit olarak kullandığı container’ları oluşturur ve yönetir. HDFS, blok düzeyinde replikasyon yaparken, Ozone container düzeyinde replikasyon yapar ve bu da özellikle ölçek büyüdüğünde önemli avantajlar sağlar. 

DataNodes 

Ozone’un depolama katmanını oluşturan tüm verilerin saklandığı node’lardır. İstemci (client) veriyi bloklar hâlinde gönderir; bu bloklar DataNode üzerinde ilgili container’a yerleştirilir. 

Recon Server 

OM ve SCM gibi farklı bileşenlerin tuttuğu metadata verilerini izleyen ve kümenin genel durumu hakkında izleme (monitoring) imkânları sunan bir servistir. 

Ozone Multi-Protocol 

Apache Ozone, aynı anda birden fazla protokolü destekleyen (multi-protocol) bir depolama sistemidir: 

S3: Amazon’un S3 API’siyle tam uyum sağlar. S3 Gateway aracılığıyla, mevcut S3 istemci araçları veya SDK’ları kullanarak Ozone’u doğrudan erişebilirsiniz. 

o3: Ozone Shell’den erişilen nesne depolama arayüzüdür. 

ofs: Hadoop uyumlu bir dosya sistemi arayüzüdür. HDFS API’sini kullanan uygulamalar, Ozone üzerinde herhangi bir API değişikliği olmadan çalışabilir. 

Ozone Avantajları

Daha İyi Performans
Sorgular daha hızlı çalışır, veri işleme süreçleri hızlanır. 

4 Kat Depolama Kapasitesi
Node başına 384 TB’a kadar ölçeklenebilirlik sunarak, veri yoğunluğu yüksek node’larda devasa miktarda veriyi aynı anda yönetebilirsiniz. 

10 Kat Ölçeklenebilirlik
HDFS’in 400 milyon dosya sınırını aşıp 10 milyar objeye kadar depolayabilme kabiliyeti sayesinde, büyük veri projelerinde kritik bir avantaj sağlar. 

Daha Kolay Yönetim
Lineer ölçeklenebilirlik, hızlı kurtarma (recovery) ve düşük bakım maliyetleriyle yöneticilere daha rahat bir deneyim sunar. 

TB Başına Daha Düşük Maliyet
Donanım kaynaklarını daha etkin kullanarak, aynı veri hacmi için daha az fiziksel depolama ihtiyacı duyar. 

Ozone vs HDFS

Cloudera neden Ozone’u seçti?

Cloudera, büyük veri dünyasında nesne depolamayı destekleyen çözümleri sürekli değerlendiriyor. Bu kapsamda Apache Ozone, HDFS’in yerine geçebilecek düzeyde tasarlanmış, aynı zamanda büyük ölçekli veri projeleri için güçlü ve ölçeklenebilir bir nesne depolama sistemi olarak dikkat çekiyor. Üstelik, Cloudera’da HDFS ve Ozone aynı cluster içinde birlikte de kullanılabiliyor. 

Cloudera’nın Ozone’u tercih etmesindeki temel sebepler: 

Hadoop Ekosistemi ile Uyum 

Ozone, Hadoop ekosisteminin doğal bir parçası olarak tasarlandığı için mevcut veri altyapısıyla sorunsuz entegrasyon sağlıyor. Veri analitiği ve işleme süreçlerini sadeleştirirken modern bir nesne depolama katmanı sunuyor. 

Yüksek Performans ve Ölçeklenebilirlik 

Veri yazma ve okuma işlemlerinde sağladığı iyileştirmelerle büyük veri iş yüklerinde ciddi performans artışı sunuyor ve milyarlarca objeye kadar uzanan bir ölçek imkânı veriyor. 

Dağıtılmış ve Yüksek Erişilebilirlik 

Verileri dağıtık bir yapıda barındırdığı için bir node arızalansa dahi veri kaybı riski azaltılıyor ve erişim kesintisiz devam ediyor. 

Figure 2: Ozone-HDFS Performance

Benchmark Sonuçları: Ozone HDFS’i Geride Bıraktı 

Cloudera, HDFS ve Ozone’u TPC-DS gibi yaygın bir benchmark testiyle karşılaştırmıştır. Hadoop ekosisteminin önemli bileşenleri olan Hive, Tez, YARN yanında HDFS ve Ozone’u yan yana çalıştırarak 12’şer storage ve compute node’dan oluşan 100 GB ve 1 TB veri setlerine sahip iki ayrı cluster üzerinde toplam 99 sorgu koşturmuştur. 

Sonuçlara göre, Ozone her iki veri boyutunda da HDFS’i ortalama %3.5 oranında daha hızlı tamamlayarak bir performans avantajı sağlamıştır. 
Daha detaylı incelemek için: Benchmarking Ozone – Cloudera Blog 

Sonuç

Özetle, Apache Ozone’un sunduğu yüksek performans, olağanüstü ölçeklenebilirlik ve multi-protokol desteği, onu büyük veri projeleri için güçlü ve geleceğe dönük bir çözüm haline getiriyor. Cloudera’nın Ozone’u benimsemesi ve gerçekleştirdiği benchmark testleri, bu teknolojinin sektörde hızla yayılacağını net bir şekilde ortaya koyuyor. 

Büyük veri altyapınızı geleceğe taşıyacak, veri depolama ve yönetim süreçlerinizi kolaylaştıracak bir platform arıyorsanız, Apache Ozone mutlaka radarınızda olmalı. 

 Mehmet Can Yılmaz, Data Engineer