Apache Druid Eğitimi

Eğitim Hakkında

Apache Druid Eğitimi, milisaniye-ölçekli sorgu performansı ve gerçek-zamanlı veri akışlarını destekleyen kolonar, dağıtık OLAP veritabanı Apache Druid’in uçtan uca mimarisini, veri girişi (batch & streaming) senaryolarını, sorgu optimizasyon tekniklerini ve üretim operasyonlarını kapsamlı biçimde ele alır. Katılımcılar;

  • Segment tabanlı depolama ve time-based sharding mantığını,
  • Broker → Historical → MiddleManager/Indexer düğüm rollerini,
  • SQL & Native JSON sorgu katmanını (vektörleştirilmiş motor, MSQ),
  • Deep Storage ayrımı, otomatik compaction ve tier-aware scaling stratejilerini,
  • Prometheus-tabanlı metrik izleme, rolling upgrade, CI/CD, güvenlik (TLS, Ranger) ve KVKK/GDPR uyum pratiklerini gerçek laboratuvar ortamında uygulayarak petabayt ölçeğinde gerçek-zamanlı analitik kümeleri kurumsal bulut veya on-prem altyapılarda devreye alabilecek yetkinliğe ulaşır.

Apache Druid, yüksek‐kardinaliteli boyutlarda bile düşük gecikmeli OLAP sorguları sunmak üzere tasarlanmış, sütun-tabanlı, zaman-parçalı (segment) veri mimarisi kullanan açık kaynak bir gerçek-zamanlı analitik veritabanıdır.

  • Planlama Katmanı: Görevleri alt-görevlere ayırır, aksiyon sırasını belirler.
  • Yürütme Katmanı: LLM tabanlı mantık + araç entegrasyonları ile adımları gerçekleştirir.
  • Hafıza Katmanı: Kısa (context window) ve uzun vadeli (vektör/graph DB) bilgiyi saklar.

Gözlem & İyileştirme: Sonuçları değerlendirir, hatalarda retry/rollback uygular ve metrik tabanlı olarak kendini optimize eder.

Kimler İçindir?

  • Veri Mühendisleri & Analytics Engineers– Kafka/Pulsar akışlarını Druid’e ingest etme, roll-up stratejileri, segment tasarımı
  • BI Geliştiricileri & Veri Analistleri– Sub-second dashboard’lar (Superset/Tableau) için SQL optimizasyonu, HLL sketch ölçümleri
  • Platform / DevOps / SRE Uzmanları – Kubernetes-tabanlı Druid cluster kurulumu, autoscale (HPA-KEDA), Prometheus & Grafana izlemesi
  • Ürün & Proje Yöneticileri – Gerçek-zamanlı analitik mimarilerini ürün yol haritasına yerleştirme, TCO & ROI beklentisi çıkarma
  • Finans, Perakende, Oyun, IoT, Telekom Dikey Uzmanları – SLA’sı < 2 sn olan büyük hacimli OLAP raporları, sahtekârlık tespiti, telemetri akışı analizi

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

Eğitim İçeriği

  • Hoş Geldiniz ve Eğitimin Hedefleri
     ○ Program yapısı, modüller, zaman çizelgesi
     ○ Katılımcı profilleri ve ön koşullar (SQL, Kafka, Linux)
     ○ Başarı göstergeleri, değerlendirme kriterleri
    • Apache Druid Tanımı, Motivasyonu ve Tarihçesi
     ○ OLAP ⇄ OLTP boşluğunu dolduran “real-time analytics” paradigması
     ○ 2012 Metamarkets → Apache Foundation süreci → Cloud-native evrim
     ○ Apache 2.0 lisansı – yazılım ücretsiz, maliyet altyapı kaynaklı
    • Druid Ekosistemi ve Temel Bileşenler
     ○ Broker, Historical, MiddleManager/Indexer, Router, Coordinator
     ○ Segment kavramı, time-based sharding, columnar depolama
     ○ Query stack: Scan, Timeseries, Top-N, GroupBy (+ VECTOR eng.)

• Depolama & Hesaplama Ayrımı
 ○ Deep Storage (S3, HDFS, GCS) ile segment offload
 ○ Compute node türleri: Historical vs. Queryable Indexer vs. Real-Time
• Parçalama ve Replikasyon
 ○ Time-chunk + hash/multi-dim sharding seçenekleri
 ○ ReplicationFactor, segment balancing, auto-compaction
• Ölçeklenebilirlik ve Yük Paylaşımı
 ○ Broker cache, result merging, multi-tier historicals
• Yüksek Erişilebilirlik
 ○ Zookeeper koordinasyonu, Coordinator failover, service discovery

• Veri Türleri ve Kolon Özellikleri
 ○ Dimension vs. Metric, Sketch (HLL/Rollup), JSON/Complex Types
• Roller – Roll-Up / No-Roll-Up Stratejileri
 ○ Küçülen depolama, daha hızlı sorgu vs. detay kaybı
• Sorgu Motoru
 ○ SQL Planner → native JSON plan; vectorization, multi-stage query (MSQ)
 ○ Push-down filtreler, bitmap index, column pruning
• Zaman Serisi ve Pencere Fonksiyonları
 ○ Interval, granularity, FLOOR (__time to HOUR), TIME_SHIFT

  • Batch vs. Streaming Ingestion
     ○ Hadoop/EMR, Local Index Task, Cloud Storage Batch
     ○ Kafka, Kinesis, Pulsar real-time ingestion
    • Ingestion Spec Anatomy
     ○ InputSource, InputFormat, Transform, Aggregator, GranularitySpec
     ○ Mutable vs. Immutable segment akışı
    • Veri Kalitesi ve Şema Evrimi
     ○ late-arrival toleransı, schema-less JSON flattening
     ○ Dimension/metric ekleme – re-index & compaction senaryoları

• Druid Console ve API’ler
 ○ Datasource yönetimi, segment health, coordinator yürütme
• Kaynak Ayarları
 ○ JVM Xms/Xmx, direct memory, processing buffer, query cache boyutu
• Güncelleme & Versiyonlama
 ○ Rolling upgrade, blue-green deployment, ZK path izolasyonu
• Yedekleme ve Kurtarma
 ○ Deep Storage dayanıklılığı, metadata DB (PostgreSQL/MySQL) snapshot’ı

  • Segment boyutu ve sayısı
     ○ 500 MB–1 GB hedefi, compaction policy
    • Query Caching
     ○ Host cache, global memcached/Redis, segment prefetch
    • Vectorization ve MSQ Tuning
     ○ CPU vs. spill-to-disk, worker-count, shuffle-compression
    • Benchmarking
     ○ Apache Superset dashboard, JMeter + Druid benchmark extension

• Metrik Toplama
 ○ Emitters: Graphite, Prometheus, Datadog, OTLP
• Loglama ve Tracing
 ○ JSON structured log, requestId, query context, errorCode
• Erişim Kontrolü
 ○ Basic auth, TLS, Ranger-entegre role-based authorization
• Veri Gizliliği ve KVKK Uyumu
 ○ Column-level masking, row-level filter, PII hash-tokenization

• A/B Test İzleme
 ○ Kafka stream → Druid → Superset canlı funnel analizi
• Operasyonel Dashboard
 ○ Ops log ingestion, 5 sn gecikme ile SLA ihlal alarmı
• IoT & Telemetri
 ○ MQTT → Pulsar → Druid for device metrics roll-up
• Fraud Detection
 ○ Approximate distinct + sketch-based cardinality anomali avı

• Visualization Araçları
 ○ Apache Superset, Tableau (SQL over HTTP), Looker JDBC
• AI & ML Akışı
 ○ Druid SQL → Python pandas → scikit-learn inference
• Veri Gölü ve Lakehouse Senaryoları
 ○ Hive-metastore federation, Iceberg external table preview
• Alerting & Stream Processing
 ○ Druid → Kafka “alert topic” → Flink CEP pattern

• On-Prem vs. Bulut (AWS EKS, GKE, AKS)
 ○ SSD/NVMe ile historical, spot-instance MiddleManager
• Kapasite Planlama
 ○ Segment büyüme eğrisi → deep storage maliyeti
 ○ QPS hedefi, p95 latency, broker ölçeği
• SaaS / Managed Druid Alternatifleri
 ○ Imply Polaris, StarTree Cloud – fiyatlandırma modeli
• FinOps Optimizasyonu
 ○ Auto-compaction pencere, S3 lifecycle tiering, memory-CPU right-sizing

Kazanımlar

  • Gerçek-Zamanlı Analitik Rekabeti: Milisaniye gecikmeli OLAP sorguları ve anlık veri güncellemeleriyle, iş birimlerinin “şimdi ve burada” karar almasını sağlar; rakiplere kıyasla analitik tepki süresini dramatik biçimde kısaltır.
  • Performans & Ölçek Garantisi: Segment tabanlı sütun-depolama, vektörleştirilmiş sorgu motoru ve tier-aware yatay ölçekleme sayesinde petabayt düzeyinde veriyi p95 < 1 sn gecikme ile sorgulama uzmanlığı kazandırır.
  • Maliyet Optimizasyonu: Roll-up, otomatik compaction ve düşük maliyetli “deep storage” katmanlarıyla depolama giderlerini %60+ düşürme; spot-instance orta katmanı ve sorgu önbelleğiyle hesaplama maliyetlerini kontrol altına alma tekniklerini öğretir.
  • Birleşik Veri Akışı Basitleştirmesi: Kafka, Kinesis, Pulsar gibi akış kaynakları ile batch yüklerini (S3, HDFS, GCS) tek şemada harmanlayarak ETL karmaşıklığını azaltır; veri mühendisliği boru hatlarını sadeleştirir.
  • Güvenilirlik & Uyumluluk: Segment replikasyonu, Zookeeper tabanlı hizmet keşfi ve TLS/Ranger RBAC yapılandırmalarıyla yüksek erişilebilirlik ve KVKK/GDPR uyumlu erişim kontrolü stratejilerini pratikte uygulatır.
  • Modern Veri Yığını Entegrasyonu: Superset, Tableau, Looker, Flink, Spark ve open-source lakehouse katmanlarıyla uyumluluğu pekiştirerek, kurumun mevcut BI ekosistemine sorunsuz entegrasyon yol haritası sunar.