Apache Druid Eğitimi

Eğitim Hakkında

Apache Druid Eğitimi, milisaniye-ölçekli sorgu performansı ve gerçek-zamanlı veri akışlarını destekleyen kolonar, dağıtık OLAP veritabanı Apache Druid’in uçtan uca mimarisini, veri girişi (batch & streaming) senaryolarını, sorgu optimizasyon tekniklerini ve üretim operasyonlarını kapsamlı biçimde ele alır. Katılımcılar;

Segment tabanlı depolama ve time-based sharding mantığını,
Broker → Historical → MiddleManager/Indexer düğüm rollerini,
SQL & Native JSON sorgu katmanını (vektörleştirilmiş motor, MSQ),
Deep Storage ayrımı, otomatik compaction ve tier-aware scaling stratejilerini,
Prometheus-tabanlı metrik izleme, rolling upgrade, CI/CD, güvenlik (TLS, Ranger) ve KVKK/GDPR uyum pratiklerini gerçek laboratuvar ortamında uygulayarak petabayt ölçeğinde gerçek-zamanlı analitik kümeleri kurumsal bulut veya on-prem altyapılarda devreye alabilecek yetkinliğe ulaşır.

Apache Druid, yüksek‐kardinaliteli boyutlarda bile düşük gecikmeli OLAP sorguları sunmak üzere tasarlanmış, sütun-tabanlı, zaman-parçalı (segment) veri mimarisi kullanan açık kaynak bir gerçek-zamanlı analitik veritabanıdır.

Planlama Katmanı: Görevleri alt-görevlere ayırır, aksiyon sırasını belirler.
Yürütme Katmanı: LLM tabanlı mantık + araç entegrasyonları ile adımları gerçekleştirir.
Hafıza Katmanı: Kısa (context window) ve uzun vadeli (vektör/graph DB) bilgiyi saklar.

Gözlem & İyileştirme: Sonuçları değerlendirir, hatalarda retry/rollback uygular ve metrik tabanlı olarak kendini optimize eder.

Kimler İçindir?

Veri Mühendisleri & Analytics Engineers– Kafka/Pulsar akışlarını Druid’e ingest etme, roll-up stratejileri, segment tasarımı
BI Geliştiricileri & Veri Analistleri– Sub-second dashboard’lar (Superset/Tableau) için SQL optimizasyonu, HLL sketch ölçümleri
Platform / DevOps / SRE Uzmanları – Kubernetes-tabanlı Druid cluster kurulumu, autoscale (HPA-KEDA), Prometheus & Grafana izlemesi
Ürün & Proje Yöneticileri – Gerçek-zamanlı analitik mimarilerini ürün yol haritasına yerleştirme, TCO & ROI beklentisi çıkarma
Finans, Perakende, Oyun, IoT, Telekom Dikey Uzmanları – SLA’sı < 2 sn olan büyük hacimli OLAP raporları, sahtekârlık tespiti, telemetri akışı analizi

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

Eğitim İçeriği

Apache Druid’e Giriş ve Temel Kavramlar

Hoş Geldiniz ve Eğitimin Hedefleri
○ Program yapısı, modüller, zaman çizelgesi
○ Katılımcı profilleri ve ön koşullar (SQL, Kafka, Linux)
○ Başarı göstergeleri, değerlendirme kriterleri
• Apache Druid Tanımı, Motivasyonu ve Tarihçesi
○ OLAP ⇄ OLTP boşluğunu dolduran “real-time analytics” paradigması
○ 2012 Metamarkets → Apache Foundation süreci → Cloud-native evrim
○ Apache 2.0 lisansı – yazılım ücretsiz, maliyet altyapı kaynaklı
• Druid Ekosistemi ve Temel Bileşenler
○ Broker, Historical, MiddleManager/Indexer, Router, Coordinator
○ Segment kavramı, time-based sharding, columnar depolama
○ Query stack: Scan, Timeseries, Top-N, GroupBy (+ VECTOR eng.)

Mimari Tasarım ve Sistem Bileşenleri

• Depolama & Hesaplama Ayrımı
○ Deep Storage (S3, HDFS, GCS) ile segment offload
○ Compute node türleri: Historical vs. Queryable Indexer vs. Real-Time
• Parçalama ve Replikasyon
○ Time-chunk + hash/multi-dim sharding seçenekleri
○ ReplicationFactor, segment balancing, auto-compaction
• Ölçeklenebilirlik ve Yük Paylaşımı
○ Broker cache, result merging, multi-tier historicals
• Yüksek Erişilebilirlik
○ Zookeeper koordinasyonu, Coordinator failover, service discovery

Veri Modellemesi ve Sorgu Mimarisi

• Veri Türleri ve Kolon Özellikleri
○ Dimension vs. Metric, Sketch (HLL/Rollup), JSON/Complex Types
• Roller – Roll-Up / No-Roll-Up Stratejileri
○ Küçülen depolama, daha hızlı sorgu vs. detay kaybı
• Sorgu Motoru
○ SQL Planner → native JSON plan; vectorization, multi-stage query (MSQ)
○ Push-down filtreler, bitmap index, column pruning
• Zaman Serisi ve Pencere Fonksiyonları
○ Interval, granularity, FLOOR (__time to HOUR), TIME_SHIFT

Veri Girişi (Ingestion) ve ETL Pipelines

Batch vs. Streaming Ingestion
○ Hadoop/EMR, Local Index Task, Cloud Storage Batch
○ Kafka, Kinesis, Pulsar real-time ingestion
• Ingestion Spec Anatomy
○ InputSource, InputFormat, Transform, Aggregator, GranularitySpec
○ Mutable vs. Immutable segment akışı
• Veri Kalitesi ve Şema Evrimi
○ late-arrival toleransı, schema-less JSON flattening
○ Dimension/metric ekleme – re-index & compaction senaryoları

Cluster Yönetimi ve Operasyon

• Druid Console ve API’ler
○ Datasource yönetimi, segment health, coordinator yürütme
• Kaynak Ayarları
○ JVM Xms/Xmx, direct memory, processing buffer, query cache boyutu
• Güncelleme & Versiyonlama
○ Rolling upgrade, blue-green deployment, ZK path izolasyonu
• Yedekleme ve Kurtarma
○ Deep Storage dayanıklılığı, metadata DB (PostgreSQL/MySQL) snapshot’ı

Performans Ayarları ve Optimizasyon

Segment boyutu ve sayısı
○ 500 MB–1 GB hedefi, compaction policy
• Query Caching
○ Host cache, global memcached/Redis, segment prefetch
• Vectorization ve MSQ Tuning
○ CPU vs. spill-to-disk, worker-count, shuffle-compression
• Benchmarking
○ Apache Superset dashboard, JMeter + Druid benchmark extension

İzleme, Gözlemlenebilirlik ve Güvenlik

• Metrik Toplama
○ Emitters: Graphite, Prometheus, Datadog, OTLP
• Loglama ve Tracing
○ JSON structured log, requestId, query context, errorCode
• Erişim Kontrolü
○ Basic auth, TLS, Ranger-entegre role-based authorization
• Veri Gizliliği ve KVKK Uyumu
○ Column-level masking, row-level filter, PII hash-tokenization

Gerçek-Zamanlı Analitik Uygulamaları

• A/B Test İzleme
○ Kafka stream → Druid → Superset canlı funnel analizi
• Operasyonel Dashboard
○ Ops log ingestion, 5 sn gecikme ile SLA ihlal alarmı
• IoT & Telemetri
○ MQTT → Pulsar → Druid for device metrics roll-up
• Fraud Detection
○ Approximate distinct + sketch-based cardinality anomali avı

BI & Ekosistem Entegrasyonları

• Visualization Araçları
○ Apache Superset, Tableau (SQL over HTTP), Looker JDBC
• AI & ML Akışı
○ Druid SQL → Python pandas → scikit-learn inference
• Veri Gölü ve Lakehouse Senaryoları
○ Hive-metastore federation, Iceberg external table preview
• Alerting & Stream Processing
○ Druid → Kafka “alert topic” → Flink CEP pattern

Dağıtım Senaryoları ve Maliyetlendirme

• On-Prem vs. Bulut (AWS EKS, GKE, AKS)
○ SSD/NVMe ile historical, spot-instance MiddleManager
• Kapasite Planlama
○ Segment büyüme eğrisi → deep storage maliyeti
○ QPS hedefi, p95 latency, broker ölçeği
• SaaS / Managed Druid Alternatifleri
○ Imply Polaris, StarTree Cloud – fiyatlandırma modeli
• FinOps Optimizasyonu
○ Auto-compaction pencere, S3 lifecycle tiering, memory-CPU right-sizing

Kazanımlar

Gerçek-Zamanlı Analitik Rekabeti : Milisaniye gecikmeli OLAP sorguları ve anlık veri güncellemeleriyle, iş birimlerinin “şimdi ve burada” karar almasını sağlar; rakiplere kıyasla analitik tepki süresini dramatik biçimde kısaltır.
Performans & Ölçek Garantisi : Segment tabanlı sütun-depolama, vektörleştirilmiş sorgu motoru ve tier-aware yatay ölçekleme sayesinde petabayt düzeyinde veriyi p95 < 1 sn gecikme ile sorgulama uzmanlığı kazandırır.
Maliyet Optimizasyonu : Roll-up, otomatik compaction ve düşük maliyetli “deep storage” katmanlarıyla depolama giderlerini %60+ düşürme; spot-instance orta katmanı ve sorgu önbelleğiyle hesaplama maliyetlerini kontrol altına alma tekniklerini öğretir.
Birleşik Veri Akışı Basitleştirmesi : Kafka, Kinesis, Pulsar gibi akış kaynakları ile batch yüklerini (S3, HDFS, GCS) tek şemada harmanlayarak ETL karmaşıklığını azaltır; veri mühendisliği boru hatlarını sadeleştirir.
Güvenilirlik & Uyumluluk : Segment replikasyonu, Zookeeper tabanlı hizmet keşfi ve TLS/Ranger RBAC yapılandırmalarıyla yüksek erişilebilirlik ve KVKK/GDPR uyumlu erişim kontrolü stratejilerini pratikte uygulatır.
Modern Veri Yığını Entegrasyonu : Superset, Tableau, Looker, Flink, Spark ve open-source lakehouse katmanlarıyla uyumluluğu pekiştirerek, kurumun mevcut BI ekosistemine sorunsuz entegrasyon yol haritası sunar.