Formation AWS Serverless & Data Pipelines

Concevez, déployez et automatisez un pipeline data serverless robuste sur AWS, de l’infrastructure à la CI/CD.

Formation AWS Serverless & Data Pipelines

Description

Cette formation AWS Serverless & Data Pipelines vous permettra de concevoir, déployer et opérer une architecture data moderne, scalable et automatisée sur AWS, en vous appuyant sur les services serverless et l’Infrastructure as Code.

Pendant 4 jours, vous apprendrez à :

  • Concevoir une architecture data serverless robuste sur AWS
  • Déployer et maintenir une infrastructure AWS avec Terraform
  • Construire un pipeline data événementiel et résilient
  • Structurer et optimiser un data lake sur S3
  • Intégrer des bases de données opérationnelles (RDS PostgreSQL)
  • Automatiser les déploiements avec une CI/CD moderne et sécurisée

Public

Cette formation s’adresse aux développeur·se·s, data engineers et profils techniques souhaitant concevoir et opérer des architectures data modernes sur AWS, avec une approche serverless et automatisée.

Les objectifs

  • Mettre en place et configurer un environnement AWS adapté à un projet data
  • Déployer une infrastructure AWS avec Terraform et gérer son cycle de vie
  • Concevoir un pipeline data serverless event-driven
  • Structurer un data lake performant et maîtriser les coûts d’analyse
  • Intégrer et sécuriser une base de données RDS dans une architecture serverless
  • Automatiser les déploiements AWS via GitHub Actions et OIDC

Pré-requis

  • Être à l’aise avec le développement Python (scripts, Pandas, framework API type FastAPI / Flask / Django)
  • Comprendre les bases de la conteneurisation avec Docker
  • Avoir des notions de bases de données relationnelles (PostgreSQL, migrations)
  • Maîtriser les outils de versioning et collaboration (Git et GitHub)
  • Ordinateur portable à apporter

Le programme de la formation AWS Serverless & Data Pipelines

Jour 1 — Fondations AWS Serverless : Lambda, Docker & Terraform

  • Mise en contexte AWS
    • Rôle d'AWS dans une architecture data
    • Vue d'ensemble des services utilisés pendant la formation
    • Principes du serverless appliqués aux pipelines data
  • Création et configuration de l'environnement AWS
    • Création d'un compte AWS et bonnes pratiques de base
    • Installation et configuration de l'AWS CLI et des credentials (profiles)
    • Vérification de l'accès au compte AWS depuis la machine locale
  • Introduction au networking AWS (VPC)
    • Notions essentielles : VPC, subnets publics vs privés, security groups
    • Importance du réseau pour Lambda et RDS
    • Vision volontairement simplifiée et orientée usages
  • Introduction à Terraform (fondations)
    • Pourquoi Terraform et principes de l’Infrastructure as Code (Infrastructure versionnée, collaborative et déclarative)
    • Terraform comme source de vérité (Code, état réel de l’infrastructure et gestion des changements)
    • Notions clés : state, workflow (init, plan, apply) et workspaces (Séparation des environnements dev et prod)
    • Démonstration sur une ressource simple (Observation du state et comparaison entre deux versions du code)
  • Lambda et Docker
    • Rôle de Lambda dans une architecture serverless
    • Intérêt de Docker pour les fonctions Lambda
    • Structure d’une Lambda Docker et bonnes pratiques d’optimisation (Taille de l’image, dépendances et temps de build)
  • Amazon ECR (Elastic Container Registry)
    • Création et gestion d’un repository ECR
    • Authentification Docker avec AWS
    • Build, push et vérification d’une image Docker Lambda

Mises en pratiques :

  • Création et configuration du compte AWS
  • Initialisation d’un projet Terraform simple
  • Manipulation de terraform plan
  • Création d’un repository ECR
  • Build et push d’une image Docker Lambda

Jour 2 — Pipeline Data Serverless AWS & Data Lake sur S3

  • Lambda — Point d'entrée du pipeline
    • Lambda événementielle vs Lambda planifiée
    • Lambda déclenchée par cron avec EventBridge Scheduler
    • Cas d’usage : collecte périodique de données et dépôt des données brutes dans S3
  • Architecture cible : pipeline data serverless event-driven
    • Chaîne d’ingestion, d’événementiel et de traitement (Lambda → S3 → SNS → SQS → Lambda)
    • Mécanismes de résilience (Retry SQS et Dead Letter Queue (DLQ)
    • Stockage et analyse des données (S3 Bronze / Silver et interrogation via Glue Catalog et Athena)
  • Data Lake : modélisation & performances
    • Organisation du Data Lake (Zones Bronze, Silver et Gold)
    • Structuration des chemins S3
    • Optimisation des performances et des coûts Athena (Partitionnement des données, Comparaison CSV vs Parquet)
  • Déploiement de l'infrastructure (Terraform)
    • Déploiement de l’infrastructure cible (S3, SNS, SQS + DLQ, Lambda et IAM)
    • Gestion du Terraform state (State local et migration vers un backend S3)

Mises en pratiques :

  • Déploiement de l’infrastructure cible avec Terraform
  • Création d’un premier environnement fonctionnel
  • Déclenchement du pipeline event-driven
  • Requêtes Athena comparatives
    • Données partitionnées vs non partitionnées
    • CSV vs Parquet

Jour 3 — Données Chaudes AWS : RDS PostgreSQL & Architecture Serverless

  • Données analytiques vs données chaudes
    • Différences entre data lake et bases opérationnelles
    • Cas d’usage des bases relationnelles
    • Complémentarité S3 et RDS
  • RDS pour les données opérationnelles
    • Cas d’usage de RDS dans une architecture serverless
    • PostgreSQL sur AWS
    • Gestion et évolution du schéma avec Alembic
    • Intégration des migrations dans les pipelines applicatifs
  • Networking RDS : bases de données en privé
    • RDS dans un VPC avec subnets privés
    • Sécurisation via security groups
    • Accès à la base uniquement depuis Lambda et le réseau interne AWS
  • Alimentation de RDS
    • Lecture des données Gold depuis S3
    • Lambda de chargement des données
    • Gestion des insert / upsert, idempotence et cohérence
  • Exposition via API Serverless
    • Exposition des données via Lambda et FastAPI
    • API simple de lecture
    • Accès sécurisé à RDS depuis Lambda en réseau privé
  • Stratégie multi-comptes AWS
    • Séparation des environnements dev et prod
    • Isolation des ressources
    • Gestion des accès humains et automatisés

Mises en pratiques :

  • Création des comptes AWS dev et prod
  • Mise en place d’un RDS en subnet privé
  • Migrations de schéma avec Alembic
  • Connexion Lambda vers RDS
  • Création de commandes make pour le déploiement et la destruction contrôlée

Jour 4 — CI/CD AWS & Terraform : Déploiements Automatisés avec GitHub Actions

  • Principes CI/CD appliqués à l'infrastructure
    • Intérêt de l’automatisation des déploiements
    • Séparation claire entre code, review et déploiement
    • Traçabilité et fiabilité des mises en production
  • CI/CD avec GitHub Actions
    • Stratégie de branches (dev pour l’environnement de développement, main pour la production)
    • Pipelines automatisés (Déploiement automatique sur dev, terraform plan affiché dans les Pull Requests, Déploiement automatique sur prod après merge)
  • Authentification GitHub ↔ AWS (OIDC)
    • Limites des clés AWS statiques
    • Principe de l’authentification OIDC
    • Mise en place de rôles IAM dédiés au CI/CD

Mises en pratiques :

  • Mise en place des workflows GitHub Actions
  • Authentification sécurisée via OIDC
  • Affichage automatique du Terraform plan dans une Pull Request
  • Déploiement automatisé sur les environnements dev et prod

Télécharger le programme

Formateur

Rémy NTSHAYKOLO

Rémy a un parcours rare qui parle autant aux équipes data qu’aux équipes cloud : ingénieur en mécanique des fluides, il se reconvertit en data science puis construit une solution pour le trafic maritime. Son quotidien : ingérer de gros flux (GPS, température, puissance…), les structurer dans un data lake, entraîner des modèles (prédiction de consommation, détection d’ouverture de portes), puis industrialiser tout cela jusqu’à la mise à disposition via API pour des acteurs de la chaîne logistique.

En tant que CTO, Rémy a conçu une plateforme sur AWS avec une forte spécialisation serverless. Il met l’accent sur les bonnes pratiques de déploiement : CI/CD, infrastructure as code avec Terraform, conteneurisation (Docker), exécution managée (Lambda), monitoring et exploitation en production.

Ce qui le distingue en formation : une approche “use case → principes → mise en pratique”, orientée workshops, pour démystifier AWS et rendre les équipes rapidement autonomes.

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

  • 9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
  • 9h30 : la formation commence
  • 12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
  • 14h : reprise de la formation
  • 18h : fin de la journée

8 raisons de participer à une formation Human Coders

  • Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1802 sessions réalisées). 99% des participants se disent satisfaits de nos formations
  • Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
  • Catalogue de formations complet : 211 formations au catalogue, de quoi vous accompagner sur tout vos projets
  • Écosystème dynamique : Nous accompagnons les dev depuis 13 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
  • Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
  • Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
  • Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012