Formation ETL & Data Warehouse

Apprenez à modéliser, construire et optimiser un entrepôt de données avec un processus ETL complet (Pentaho, PostgreSQL, Power BI).

Formation ETL & Data Warehouse

Description

Cette formation ETL & data warehouse vous permettra de comprendre et mettre en œuvre les principes fondamentaux de l’entreposage de données et des processus ETL.

Pendant 3 jours, vous apprendrez à :

  • Comprendre l’architecture et la modélisation d’un entrepôt de données
  • Concevoir des tables de faits et de dimensions robustes
  • Gérer les dimensions à évolution lente (SCD)
  • Mettre en place des processus ETL avec Pentaho et PostgreSQL
  • Comparer ETL et ELT et choisir la bonne approche
  • Optimiser les performances grâce aux index et au stockage moderne (cloud, colonnes, MPP)

Enfin, vous découvrirez comment connecter votre entrepôt à Power BI pour des analyses de haut niveau.

Public

Cette formation ETL s'adresse aux data scientists, ingénieur·e·s ML, analystes de données souhaitant acquérir de solides compétences de base pour travailler avec les données.

Les objectifs

  • Identifier les concepts clés d’un entrepôt de données et de la BI
  • Concevoir des schémas en étoile et des tables de faits/dimensions
  • Mettre en œuvre des processus ETL robustes avec Pentaho
  • Déployer et optimiser un entrepôt de données dans PostgreSQL
  • Connecter l’entrepôt à Power BI pour l’analyse

Pré-requis

  • Connaissances fondamentales des systèmes de gestion de bases de données (SGBD) et de SQL
  • Maîtrise de la programmation de base (Python ou Java)
  • Ordinateur portable à apporter

Le programme de la formation ETL & Data Warehouse

Jour 1 : Comprendre les principes fondamentaux de l’entreposage de données

  • Les bases de l'entrepôt de données
    • Pourquoi un entrepôt de données ?
    • Qu'est-ce qu'un entrepôt de données ?
    • Qu'est-ce que la Business Intelligence ?
    • Data Lake (Lac de données) ou entrepôt de données
  • Architecture de l'entrepôt de données
    • Couches d'un entrepôt de données
    • Zone de transit (Staging area)
    • Data Marts
    • Bases de données relationnelles
    • Bases de données In-Momory
    • Cubes
    • Stockage de données opérationnelles
  • Modélisation dimensionnelle
    • Qu'est-ce que la modélisation dimensionnelle ?
    • Pourquoi la modélisation dimensionnelle ?
    • Dimensions
    • Schéma en étoile

Mises en pratique :

  • Créer une zone de transit dans un entrepôt de données
  • Dimension en flocon (tableau des catégories)

Jour 2 : Création de base de données

  • Faits
    • Additivité
    • Nulles dans les faits
    • Faits annuels cumulés (YTD)
    • Types de tables de faits
    • Tables de faits transactionnelles
    • Tables de faits périodiques
    • Accumulation d'instantanés
    • Comparaison des types de tables de faits
    • Tables de faits sans faits
    • Étapes de conception des tables de faits
    • Clés étrangères
  • Dimensions
    • Dimension des tables
    • Dimensions de date
    • Nulles dans les Dimensions
    • Les hiérarchies dans les Dimensions
    • Dimensions conformes
    • Dimensions dégénérées
    • Dimension indésirable
    • Dimension de jeu de rôle
  • Dimensions à évolution lente
    • Que sont les dimensions à évolution lente ?
    • Type 0 – Original
    • Type 1 – Écraser
    • Type 2 – Ligne supplémentaire
    • Gestion des dimensions de type 2
    • Mixer les dimensions de type 1 et de type 2
    • Type 3 – Attribut supplémentaire

Mises en pratique :

  • Étude de cas : Identifier le processus métier / Définir le grain / Identifier les dimensions / Identifier les faits
  • Étude de cas : Dimension de date

Jour 3 : Mettre en place un processus ETL robuste

  • ETL Vs ELT
    • Qu'est-ce qu'un ETL ?
    • ETL vs ELT
    • Choisir le bon outil ETL
  • Processus ETL
    • Comprendre le processus ETL
    • Extraction
    • Chargement initial
    • Chargement différentiel
    • Flux de chargement
    • Configuration de Pentaho
    • Configuration de PostgreSQL
    • Transformations des données
    • Transformations basiques
    • Transformations avancées
    • Planification des taches
  • Étude de cas – Création d'un entrepôt de données
    • Plan d'attaque
    • Données sources et conception des tables
    • Configuration des tables dans la base de données
    • Staging : Données de vente
    • Tâche de staging et résolution des problèmes
    • Chargement de la dimension de paiement
    • Transformation et chargement des données de vente
    • Tâche de transformation et de chargement
    • Tâche ETL finale et chargement incrémentiel
  • Utilisation d'un entrepôt de données
    • Quels sont les cas d'utilisation courants ?
    • Connexion de l'entrepôt de données à Power BI
  • Optimisation d'un entrepôt de données
    • Utilisation des index
    • Index B-tree
    • Index bitmap
    • Consignes pour les index
  • Les entrepôts de données modernes
    • Cloud vs. sur site
    • Avantages du cloud vs. sur site
    • Traitement parallèle massif
    • Stockage en colonnes

Mises en pratique :

  • Configuration de tables et Staging complète / Résultats de chargement et de validation / Planification des taches
  • Introduction rapide à Pentaho / Configuration de tables en SQL / Exemple de chargement initial / Exemple de chargement différentiel /Planification des prochaines étapes
  • Définition des index

Télécharger le programme

Formations associées

Formateur

Daouda DIOP

Daouda est docteur-ingénieur en optique et vision par ordinateur. Il a forgé son expertise dans la fibre optique, l'astronomie aérospatiale et le développement d'algorithmes de computer vision pour véhicules autonomes.

Sa maîtrise de C++, Matlab, Python et des technologies comme Hadoop, Spark, SQL et Power BI, acquise notamment lors de sa thèse dont une partie concerne le synchrotron, fait de lui un formateur d’exception.

Que ce soit à l'université ou en milieu professionnel, Daouda forme des data engineers et des data analysts, adaptant ses cours à son public avec des projets concrets. Il sait capter l’attention en mêlant théorie et pratique, permettant aux stagiaires d’appliquer Spark sur des cas réels, comme l’analyse de données événementielles sur un datalake Azure.

Suivez une formation avec Daouda pour transformer vos compétences en data !

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

  • 9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
  • 9h30 : la formation commence
  • 12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
  • 14h : reprise de la formation
  • 18h : fin de la journée

8 raisons de participer à une formation Human Coders

  • Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1730 sessions réalisées). 99% des participants se disent satisfaits de nos formations
  • Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
  • Catalogue de formations complet : 189 formations au catalogue, de quoi vous accompagner sur tout vos projets
  • Écosystème dynamique : Nous accompagnons les dev depuis 13 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
  • Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
  • Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
  • Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012