Formation Python pour l'analyse de données

Devenez autonome en analyse de données avec Python : collecte, nettoyage, visualisation et préparation pour le Machine Learning.

Formation Python pour l'analyse de données

Description

Cette formation sur l'analyse de données avec Python vous permettra d’acquérir une méthodologie solide et les bons réflexes pour transformer vos données brutes en informations exploitables.

Pendant 3 jours, vous apprendrez à :

  • Installer et configurer un environnement Python adapté à l’analyse de données
  • Collecter et charger des données depuis des fichiers CSV, Excel, JSON ou bases SQL
  • Nettoyer et transformer des données hétérogènes
  • Réaliser une analyse exploratoire (EDA) et produire des visualisations claires
  • Identifier et traiter les données manquantes, doublons et valeurs aberrantes
  • Construire de nouvelles caractéristiques et mettre à l’échelle vos données
  • Créer un pipeline complet et robuste prêt pour le Machine Learning

Tout au long de la formation, vous mettrez en pratique ces notions sur des jeux de données concrets (ex. Titanic, ventes, données web) et construirez un pipeline de bout en bout, de la donnée brute à un jeu de données exploitable en production !

Public

Cette formation s’adresse aux développeur·se·s, analystes et data scientists qui veulent transformer des données brutes en informations exploitables grâce à Python et Pandas.

Les objectifs

  • Installer un environnement Python (Anaconda, Jupyter)
  • Manipuler des données tabulaires avec Pandas
  • Nettoyer et transformer des jeux de données variés
  • Réaliser une analyse exploratoire et produire des visualisations
  • Créer et enrichir des caractéristiques (feature engineering)
  • Construire un pipeline complet et éviter les fuites de données

Pré-requis

  • Avoir des bases de programmation (boucles, conditions, variables)
  • Être à l’aise avec les manipulations de fichiers (CSV, Excel)
  • Ordinateur portable à apporter

Le programme de la formation Python pour l'analyse de données

Jour 1 : Introduction au workflow d'analyse des données et aux bases de Python

  • Introduction
    • Qu'est-ce que la science des données ?
    • Compétences en science des données
  • Flux de travail en science des données
    • Étape 1 : Définition du périmètre d'un projet
    • Étape 2 : Collecte des données
    • Étape 3 : Nettoyage des données
    • Étape 4 : Exploration des données
    • Étape 5 : Modélisation des données
    • Étape 6 : Partage des connaissances
    • Préparation des données et EDA
  • Définition du périmètre d'un projet
    • Étapes de définition du périmètre d'un projet
    • Penser comme un utilisateur final
    • Problèmes de réflexion
    • Apprentissage supervisé et non supervisé
    • Identifier les besoins en données
    • Structures de données
    • Caractéristiques du modèle
    • Scope des données
    • Résumé du scope
  • Installation de Jupyter Notebook
    • Qu'est-ce que Python ?
    • Installation d'Anaconda
    • Configuration de l’environnement de travail
    • Lancement de Jupyter Notebook
    • Interface de Notebook
    • Mode Édition vs Mode Commande
    • Cellule de code
    • Cellule Markdown
    • Introduction à la chaîne d’outils : Python, Pandas, Jupyter

Mises en pratique :
- Installation et configuration d'un environnement Anaconda
- Création d'un premier notebook Jupyter et exécution de code Python simple
- Réalisation des premières étapes du workflow : import, affichage des premières lignes, observation des types de données

Jour 2 : Fondements de l’analyse de données

  • Collecte des données
    • Processus de collecte de données
    • Sources de données
    • Données structurées et non structurées
    • Le DataFrame Pandas
    • Ingestion de données : Lecture de données provenant de diverses sources (CSV, Excel, JSON, URL web, base de données SQL)
    • Inspection de données : Utilisation de .info(), .describe(), .shape, .dtypes, .columns
    • Sélection de données de base : Indexation avec iloc et loc
    • Filtrage des données : Indexation booléenne pour la sélection de sous-ensembles de lignes
    • Gestion des colonnes : Ajout, suppression et renommage de colonnes
  • Nettoyage des données
    • Types de données
    • Conversion en date et heure
    • Conversion en numérique
    • Différents problèmes de données
    • Recherche de textes incohérents et de fautes de frappe
    • Mise à jour des valeurs selon une condition logique
    • Mappage des valeurs
    • Nettoyage du texte
    • Recherche des doublons
    • Gestion des doublons
    • Création de colonnes (numérique, date et heure, texte)
  • Gestion des données aberrantes
    • Recherche des valeurs aberrantes
    • Histogrammes
    • Boîtes à moustaches
    • Écart type
    • Gestion des valeurs aberrantes
  • Stratégies de gestion des données manquantes
    • Comprendre les données manquantes : Mécanismes des données manquantes
    • Recherche de données manquantes : Utiliser isnull(), sum() et la bibliothèque missingno pour la visualisation
    • Suppression des données manquantes : dropna()
    • Imputation des données manquantes : Imputation moyenne/médiane/mode pour les données numériques et catégorielles
    • Imputation avancée : Utilisation de modèles (par exemple, KNN)

Mises en pratique :
- Lecture d’un fichier CSV, d’un fichier Excel et d’un JSON avec Pandas, puis inspection avec .info(), .describe(), .shape
- Identification des valeurs nulles avec isnull() et missingno, corriction ou imputation de certaines colonnes
- Correction de fautes de frappe dans des colonnes texte, normalisation des formats de dates, suppression ou fusion des doublons

Jour 3 : Analyse et préparation des données pour le Machine Learning

  • Analyse exploratoire des données (EDA)
    • Qu’est-ce que l'analyse exploratoire des données ?
    • L'objectif de l'EDA : formuler des hypothèses, comprendre la structure sous-jacente, vérifier les hypothèses
    • Filtrage
    • Tri
    • Regroupement
    • Présentation de la visualisation des données
  • Analyse univariée
    • Caractéristiques numériques : Histogrammes, graphiques KDE (kernel density estimate), boîtes à moustaches
    • Caractéristiques catégorielles : Diagrammes à barres, graphiques de comptage
  • Analyse bivariée
    • Analyse numérique vs. Numérique : Nuages de points, matrices de corrélation (cartes de chaleur), graphiques de paires.
    • Analyse numérique vs. Catégorielle : Histogrammes superposés, boîtes à moustaches par catégorie
    • Analyse catégorielle vs. Catégorielle : Diagrammes à barres empilées, cartes de chaleur des tableaux croisés
  • Détection des valeurs aberrantes
    • Méthodes visuelles (boxplots, nuages de points)
    • Méthodes statistiques (IQR, score Z)
  • Traitement des données catégorielles
    • Ordinal Encoding (pour un ordre inhérent)
    • One-Hot Encoding (pour un ordre non inhérent)
    • Label Encoding (principalement pour les variables cibles)
  • Regroupement et discrétisation
    • Conversion de données numériques en données catégorielles
  • Création de nouvelles caractéristiques
    • Caractéristiques spécifiques à un domaine
    • Caractéristiques basées sur des dates
    • Caractéristiques d’interaction.
  • Création d'une table unique
  • Jointure
  • Types de jointures
  • Introduction aux données textuelles
    • Extraction de caractéristiques textuelles simples
  • Conseils pour l'ingénierie des caractéristiques (feature engineering)
  • Transformation et mise à l'échelle des données
    • Pourquoi la mise à l'échelle ? Comment les algorithmes basés sur la distance et le gradient sont-ils affectés ?
    • Techniques (Normalisation, Standardisation, Mise à l'échelle robuste)
  • Transformation des distributions
    • Quand et pourquoi utiliser les transformations logarithmique, racine carrée ou Box-Cox pour gérer l'asymétrie ?
  • Le pipeline de préparation des données
    • Le problème des fuites de données : Pourquoi ajuster les scalers/imputers uniquement sur l’ensemble d’apprentissage ?
    • Introduction aux pipelines « scikit-learn » : Les objets Pipeline et ColumnTransformer
    • Créer un pipeline robuste : Enchaîner les étapes d’imputation, d’encodage, de mise à l’échelle et de sélection de caractéristiques
    • Enregistrer (sérialiser) les pipelines : Utiliser pickle ou joblib pour enregistrer votre pipeline ajusté afin de l’utiliser en production ou pour l’inférence.

Mises en pratique :
- Analyse de données analytiques complète sur un ensemble de données riche
- Production d'un rapport avec des visualisations et des analyses pour chaque variable et relation
- Comparaison de l'impact de différents scalers sur les performances d'un modèle des K plus proches voisins
- Création d'un pipeline de bout en bout qui prend un jeu de données brutes et génère un jeu de données entièrement traité et prêt pour le ML. Utiliser les divisions d’apprentissage/test pour éviter les fuites de données

Télécharger le programme

Formations associées

Formateur

Daouda DIOP

Daouda est docteur-ingénieur en optique et vision par ordinateur. Il a forgé son expertise dans la fibre optique, l'astronomie aérospatiale et le développement d'algorithmes de computer vision pour véhicules autonomes.

Sa maîtrise de C++, Matlab, Python et des technologies comme Hadoop, Spark, SQL et Power BI, acquise notamment lors de sa thèse dont une partie concerne le synchrotron, fait de lui un formateur d’exception.

Que ce soit à l'université ou en milieu professionnel, Daouda forme des data engineers et des data analysts, adaptant ses cours à son public avec des projets concrets. Il sait capter l’attention en mêlant théorie et pratique, permettant aux stagiaires d’appliquer Spark sur des cas réels, comme l’analyse de données événementielles sur un datalake Azure.

Suivez une formation avec Daouda pour transformer vos compétences en data !

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

  • 9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
  • 9h30 : la formation commence
  • 12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
  • 14h : reprise de la formation
  • 18h : fin de la journée

8 raisons de participer à une formation Human Coders

  • Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1732 sessions réalisées). 99% des participants se disent satisfaits de nos formations
  • Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
  • Catalogue de formations complet : 190 formations au catalogue, de quoi vous accompagner sur tout vos projets
  • Écosystème dynamique : Nous accompagnons les dev depuis 13 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
  • Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
  • Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
  • Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012