Schulungsübersicht
Einführung in Apache Airflow
- Was ist Workflow-Orchestrierung?
- Wichtige Merkmale und Vorteile von Apache Airflow
- Verbesserungen in Airflow 2.x und Überblick über das Ökosystem
Architektur und Kernkonzepte
- Scheduler, Web-Server und Worker-Prozesse
- DAGs, Aufgaben und Operatoren
- Executoren und Backends (Local, Celery, Kubernetes)
Installation und Setup
- Installation von Airflow in lokalen und Cloud-Umgebungen
- Konfiguration von Airflow mit verschiedenen Executoren
- Einrichten von Metadaten-Datenbanken und Verbindungen
Navigieren in der Airflow-Benutzeroberfläche und CLI
- Erkundung der Airflow-Web-Oberfläche
- Überwachen von DAG-Läufen, Aufgaben und Logs
- Verwaltung von Airflow mit der CLI
Erstellen und Verwalten von DAGs
- Erstellen von DAGs mit dem TaskFlow-API
- Verwenden von Operatoren, Sensoren und Hooks
- Verwalten von Abhängigkeiten und Zeitintervallen
Integration von Airflow mit Daten- und Cloud-Diensten
- Verbindung zu Datenbanken, APIs und Messaging-Queues
- Betreiben von ETL-Pipelines mit Airflow
- Cloud-Integration: AWS, GCP, Azure-Operatoren
Überwachung und Observabilität
- Task-Logs und Echtzeitüberwachung
- Metriken mit Prometheus und Grafana
- Benachrichtigungen und Warnungen per E-Mail oder Slack
Sichern von Apache Airflow
- Rollenbasierte Zugriffskontrolle (RBAC)
- Authentifizierung mit LDAP, OAuth und SSO
- Verwaltung von Geheimnissen mit Vault und Cloud-Geheimnis-Speichern
Skalieren von Apache Airflow
- Parallelität, Konkurrenz und Task-Warteschlangen
- Verwenden des CeleryExecutor und KubernetesExecutor
- Bereitstellen von Airflow auf Kubernetes mit Helm
Best Practices für die Produktion
- Versionskontrolle und CI/CD für DAGs
- Testen und Debuggen von DAGs
- Wartung von Zuverlässigkeit und Leistung bei Skalierung
Fehlersuche und Optimierung
- Debuggen fehlgeschlagener DAGs und Aufgaben
- Optimieren der DAG-Leistung
- häufige Fallstricke und wie man sie vermeidet
Zusammenfassung und weitere Schritte
Voraussetzungen
- Erfahrung mit Python-Programmierung
- Kenntnisse in Datenverarbeitung oder DevOps-Konzepten
- Verständnis von ETL oder Workflow-Orchestrierung
Zielgruppe
- Data Scientists
- Data Engineers
- DevOps- und Infrastruktur-Ingenieure
- Softwareentwickler
Erfahrungsberichte (7)
The training was spot on. Very useful theory and exercices.
Vladimir - PUBLIC COURSE
Kurs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Kurs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Kurs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Kurs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Kurs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Kurs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
