Formation Airflow

Maîtrisez Apache Airflow 3 : DAGs modernes, ETL robustes, Kubernetes, CI/CD et mise en production de pipelines data scalables.

Formation Airflow

Description

Cette formation Airflow vous permettra de concevoir, industrialiser et déployer des pipelines data robustes avec Apache Airflow 3.

Pendant 3 jours, vous apprendrez à :

  • Concevoir des pipelines data modernes et fiables avec Airflow 3, TaskFlow API, orchestration orientée données et bonnes pratiques ETL
  • Industrialiser vos workflows en production grâce au déploiement Kubernetes, CI/CD, gestion des erreurs et qualité des données
  • Garantir performance et observabilité avec monitoring, alerting, optimisation du scaling et exploitation de pipelines data et ML complets

Public

Cette formation s’adresse aux data engineers, data scientists, ML engineers et développeurs souhaitant concevoir, industrialiser et déployer des pipelines data robustes avec Apache Airflow.

Les objectifs

  • Comprendre l’architecture et les nouveautés d’Airflow 3
  • Développer des DAGs modernes avec TaskFlow API
  • Concevoir des pipelines ETL robustes et maintenables
  • Mettre en place la qualité et l’observabilité des données
  • Déployer Airflow en production sur Kubernetes
  • Industrialiser et optimiser des pipelines data complets

Pré-requis

  • Bonne maîtrise de Python
  • Ordinateur portable à apporter

Le programme de la formation Airflow

Jour 1 — Airflow moderne & conception de DAGs avec TaskFlow API

  • Comprendre Airflow dans les architectures data modernes
    • Rôle d’Airflow dans les pipelines data et ML (batch, micro-batch, orchestration)
    • Différence orchestration vs processing (Airflow vs Spark / dbt)
    • Cas d’usage réels en entreprise (data platform, IA, analytics)
  • Installation et architecture d’Airflow
    • Installation locale avec Docker / Astro CLI
    • Architecture Airflow 3 : Scheduler, API Server, Executors, Metadata DB
    • Introduction aux DAG Bundles et versioning natif
  • Création de DAGs modernes avec TaskFlow API
    • @dag et @task : nouvelle manière d’écrire des DAGs
    • Passage de données avec XCom simplifié
    • Dynamic Task Mapping (génération dynamique de tâches)
    • Task Groups pour structurer les workflows
  • Orchestration orientée données (Assets & Datasets)
    • Introduction à la logique asset-centric
    • @asset decorator et dépendances basées sur les données
    • Event-driven scheduling vs scheduling temporel**
  • Les nouveautés d'Airflow 3.0
    • Event-driven scheduling / Asset Watchers
    • DAG Bundles & versioning
    • Nouvelle UI (React) et gains de performance
    • Évolutions des executors et de l’architecture

Mises en pratique : Mise en place d'un pipeline e-commerce

  • Création d’un DAG avec TaskFlow API
  • Implémentation de dépendances dynamiques
  • Première orchestration orientée données

Jour 2 — Pipelines robustes, data engineering moderne & qualité des données

  • Conception de pipelines ETL robustes
    • Patterns ETL modernes (idempotence, reprocessing, backfills)
    • Gestion des dépendances complexes
    • Structuration de pipelines maintenables
  • Gestion avancée des erreurs et résilience
    • Retry, timeout, SLA, alerting
    • Branching et gestion conditionnelle
    • Debugging avancé (logs, UI, tracing)
  • Paramétrisation, configuration et secrets
    • Variables, connexions et secrets backend
    • Intégration avec Vault / Kubernetes Secrets
    • Gestion multi-environnements (dev / staging / prod)
  • Data quality & gouvernance
    • Introduction à Great Expectations / Soda
    • Intégration avec dbt dans un pipeline Airflow
    • Bonnes pratiques d’observabilité data
  • Intégration cloud & providers Airflow
    • Utilisation des providers (AWS, GCP, Snowflake…)
    • Introduction à MWAA, Cloud Composer
    • Bonnes pratiques cloud-native

Mises en pratique :

  • Construction d’un pipeline ETL complet (API → transformation → stockage)
  • Ajout de contrôles de qualité de données
  • Paramétrisation dynamique selon l’environnement
  • Debugging collectif d’un DAG volontairement cassé

Jour 3 — Industrialisation, déploiement Kubernetes & Airflow en production

  • Déploiement d’Airflow en production
    • Comparaison des executors (LocalExecutor, CeleryExecutor, KubernetesExecutor, Hybrid executors)
    • Introduction aux nouveautés Airflow 3 (remote execution, nouveaux modèles)
  • Airflow sur Kubernetes
    • Déploiement avec Helm
    • Gestion des DAGs (GitSync vs DAG Bundles)
    • Scaling et isolation des tâches
  • CI/CD et testing des pipelines
    • Tests de DAGs (dag.test(), unit tests, integration tests)
    • Mise en place d’un pipeline CI/CD (GitHub Actions / GitLab CI)
    • Déploiement sans downtime
  • Monitoring & observabilité avancée
    • Logs, métriques et alertes
    • Intégration Prometheus / Grafana
    • Introduction à OpenTelemetry
  • Performance & pièges en production
    • Scheduler lag, metadata DB scaling
    • Optimisation des DAGs et parallélisation
    • Gestion des coûts (notamment sur Kubernetes)
  • Cas avancés & ouverture
    • Orchestration de pipelines ML (Airflow + MLflow / Kubeflow)
    • Event-driven pipelines / micro-batch
    • Orchestration dbt + Airflow
    • Limites d’Airflow vs Dagster / Prefect / Temporal

Mises en pratique :

  • Industrialisation complète du pipeline construit
  • Déploiement simulé sur Kubernetes
  • Ajout de monitoring et alerting
  • Optimisation et revue collective

Télécharger le programme

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

  • 9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
  • 9h30 : la formation commence
  • 12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
  • 14h : reprise de la formation
  • 18h : fin de la journée

8 raisons de participer à une formation Human Coders

  • Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1828 sessions réalisées). 99% des participants se disent satisfaits de nos formations
  • Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
  • Catalogue de formations complet : 230 formations au catalogue, de quoi vous accompagner sur tout vos projets
  • Écosystème dynamique : Nous accompagnons les dev depuis 14 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
  • Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
  • Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
  • Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012