Schulungsübersicht

Einführung in Apache Airflow

  • Was ist Workflow-Orchestrierung?
  • Wichtige Merkmale und Vorteile von Apache Airflow
  • Verbesserungen in Airflow 2.x und Überblick über das Ökosystem

Architektur und Kernkonzepte

  • Scheduler, Web-Server und Worker-Prozesse
  • DAGs, Aufgaben und Operatoren
  • Executoren und Backends (Local, Celery, Kubernetes)

Installation und Setup

  • Installation von Airflow in lokalen und Cloud-Umgebungen
  • Konfiguration von Airflow mit verschiedenen Executoren
  • Einrichten von Metadaten-Datenbanken und Verbindungen

Navigieren in der Airflow-Benutzeroberfläche und CLI

  • Erkundung der Airflow-Web-Oberfläche
  • Überwachen von DAG-Läufen, Aufgaben und Logs
  • Verwaltung von Airflow mit der CLI

Erstellen und Verwalten von DAGs

  • Erstellen von DAGs mit dem TaskFlow-API
  • Verwenden von Operatoren, Sensoren und Hooks
  • Verwalten von Abhängigkeiten und Zeitintervallen

Integration von Airflow mit Daten- und Cloud-Diensten

  • Verbindung zu Datenbanken, APIs und Messaging-Queues
  • Betreiben von ETL-Pipelines mit Airflow
  • Cloud-Integration: AWS, GCP, Azure-Operatoren

Überwachung und Observabilität

  • Task-Logs und Echtzeitüberwachung
  • Metriken mit Prometheus und Grafana
  • Benachrichtigungen und Warnungen per E-Mail oder Slack

Sichern von Apache Airflow

  • Rollenbasierte Zugriffskontrolle (RBAC)
  • Authentifizierung mit LDAP, OAuth und SSO
  • Verwaltung von Geheimnissen mit Vault und Cloud-Geheimnis-Speichern

Skalieren von Apache Airflow

  • Parallelität, Konkurrenz und Task-Warteschlangen
  • Verwenden des CeleryExecutor und KubernetesExecutor
  • Bereitstellen von Airflow auf Kubernetes mit Helm

Best Practices für die Produktion

  • Versionskontrolle und CI/CD für DAGs
  • Testen und Debuggen von DAGs
  • Wartung von Zuverlässigkeit und Leistung bei Skalierung

Fehlersuche und Optimierung

  • Debuggen fehlgeschlagener DAGs und Aufgaben
  • Optimieren der DAG-Leistung
  • häufige Fallstricke und wie man sie vermeidet

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Erfahrung mit Python-Programmierung
  • Kenntnisse in Datenverarbeitung oder DevOps-Konzepten
  • Verständnis von ETL oder Workflow-Orchestrierung

Zielgruppe

  • Data Scientists
  • Data Engineers
  • DevOps- und Infrastruktur-Ingenieure
  • Softwareentwickler
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (7)

Kommende Kurse

Verwandte Kategorien