Formation Machine Learning distribué avec Spark

Lors de cette formation Machine Learning distribué avec Spark, apprenez à créer et à optimiser des modèles prédictifs en Python en exploitant au maximum la puissance de calcul du cluster Apache Spark et les performances de la parallélisation !

Prix (Formation inter-entreprise)

1600€ HT / personne

Durée

2 jours

Dates

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Cette formation met l’accent sur la compréhension de l’environnement Apache Spark dans un contexte de Machine Learning et avec l’utilisation de Python.

Le but de cette formation Machine Learning distribué avec Spark est d’apprendre à bien manipuler vos données et à créer des modèles prédictifs performants en s’appuyant sur Spark et son écosystème (le cluster Spark, Spark Streaming, PySpark, MLLib, SparkSQL…). Des bonnes pratiques et des écueils à éviter seront également abordés.

Cette formation s’adresse à des développeur·e·s, data engineers, data scientists, chercheurs, ingénieur·e·s R&D… en bref toute personne travaillant dans le domaine de la data sachant manipuler du code informatique.

Durant ces 2 jours formation, vous verrez comment s’organisent les calculs dans un cluster Spark, mais aussi comment améliorer la performance de votre code grâce à la parallélisation, lors de chaque phase d’un projet de Machine Learning :

  • le pré-processing des données,
  • le feature engineering,
  • la création et l’optimisation d’un modèle prédictif,
  • le déploiement et l’utilisation en production.

Tout au long de la *formation Machine Learning distribué avec Spark, vous mettrez en œuvre ces concepts sur des cas concrets réels, et constaterez par vous-même les différences de performance en fonction des implémentations.

Des rappels seront effectués tout au long de la formation sur les aspects Machine Learning, mais il est toutefois recommandé de ne pas être débutant dans le domaine.

Si vous débutez en Machine Learning, jetez un œil à la formation Machine Learning avec Python, qui pose toutes les bases nécessaires et qui est une première étape idéale avant de se lancer avec Spark.

Les objectifs

  • Comprendre l’architecture d’un cluster Spark et la parallélisation des calculs
  • Prendre en main la syntaxe python de l’API Spark (PySpark)
  • Savoir manipuler et transformer efficacement les DataFrames et RDD Spark
  • Maîtriser l’entraînement et l’optimisation des modèles prédictifs dans Spark avec MLLib
  • Utiliser Spark Streaming pour faire de l’analyse en temps réel

Pré-requis

  • Connaître un langage de programmation, idéalement python
  • Avoir des notions de Machine Learning, idéalement en ayant suivi la formation Machine Learning avec Python
  • Apporter son ordinateur portable

Le programme de la formation Machine Learning distribué avec Spark

Jour 1 : Manipuler et transformer des données avec Spark

Introduction
  • Définition, architecture, technologie
  • API de programmation Spark en Python (pyspark)
  • Le Machine Learning avec Spark
Machine Learning : quelques rappels
  • Définition et cas d’usage du Machine Learning
  • Workflow d’un projet de Machine Learning : des données brutes aux prédictions
  • Rappels des principaux algorithmes
Structure des données en Spark
  • Dataframe, RDD (Résilient Distributed Dataset)
  • Distribution des données dans le cluster : les partitions
Manipulation des données avec SparkSQL
  • Opérations basiques : tris, sélections, agrégations, jointures
  • User Defined Functions (UDF)
  • Utilisation des fonctions natives
Feature engineering avec Spark
  • Utilisation des Transformers
  • Création d’un pipeline
  • Préparation des données pour la modélisation

Jour 2 : Créer et optimiser des modèles prédictifs avec Spark

Premiers modèles : les régressions
  • Régression linéaire
  • Régression logistique
Algorithmes basés sur des arbres de décision
  • Arbres de décision
  • Random Forests
  • Gradient Boosted Trees
Autres algorithmes
  • Réduction de dimension : PCA
  • Clustering : K-means
Optimiser les modèles
  • Mesurer la qualité des modèles avec les Evaluators
  • Construire un gridsearch pour trouver les meilleurs hyper-paramètres

Télécharger le programme

Besoin d'aide ?

Vous souhaitez discuter avec nous à propos de votre projet de formation ?
Vous voulez plus d'information sur une formation ou notre fonctionnement ?


Rappel Email

Nos forces

  • Des formations à taille humaine
  • Des formateurs passionnés
  • Des véritables workshop
Accéder au Manifeste

Nos clients

Banque Postale
Air France
Axa
FNAC
Meetic
CNRS

Nos formations en images

CasperJS
Angular
Machine Learning avec Python
Machine Learning avec Python

Formation Machine Learning distribué avec Spark

Lors de cette formation Machine Learning distribué avec Spark, apprenez à créer et à optimiser des modèles prédictifs en Python en exploitant au maximum la puissance de calcul du cluster Apache Spark et les performances de la parallélisation !

Cette formation met l’accent sur la compréhension de l’environnement Apache Spark dans un contexte de Machine Learning et avec l’utilisation de Python.

Le but de cette formation Machine Learning distribué avec Spark est d’apprendre à bien manipuler vos données et à créer des modèles prédictifs performants en s’appuyant sur Spark et son écosystème (le cluster Spark, Spark Streaming, PySpark, MLLib, SparkSQL…). Des bonnes pratiques et des écueils à éviter seront également abordés.

Cette formation s’adresse à des développeur·e·s, data engineers, data scientists, chercheurs, ingénieur·e·s R&D… en bref toute personne travaillant dans le domaine de la data sachant manipuler du code informatique.

Durant ces 2 jours formation, vous verrez comment s’organisent les calculs dans un cluster Spark, mais aussi comment améliorer la performance de votre code grâce à la parallélisation, lors de chaque phase d’un projet de Machine Learning :

  • le pré-processing des données,
  • le feature engineering,
  • la création et l’optimisation d’un modèle prédictif,
  • le déploiement et l’utilisation en production.

Tout au long de la *formation Machine Learning distribué avec Spark, vous mettrez en œuvre ces concepts sur des cas concrets réels, et constaterez par vous-même les différences de performance en fonction des implémentations.

Des rappels seront effectués tout au long de la formation sur les aspects Machine Learning, mais il est toutefois recommandé de ne pas être débutant dans le domaine.

Si vous débutez en Machine Learning, jetez un œil à la formation Machine Learning avec Python, qui pose toutes les bases nécessaires et qui est une première étape idéale avant de se lancer avec Spark.

Les objectifs

  • Comprendre l’architecture d’un cluster Spark et la parallélisation des calculs
  • Prendre en main la syntaxe python de l’API Spark (PySpark)
  • Savoir manipuler et transformer efficacement les DataFrames et RDD Spark
  • Maîtriser l’entraînement et l’optimisation des modèles prédictifs dans Spark avec MLLib
  • Utiliser Spark Streaming pour faire de l’analyse en temps réel

Pré-requis

  • Connaître un langage de programmation, idéalement python
  • Avoir des notions de Machine Learning, idéalement en ayant suivi la formation Machine Learning avec Python
  • Apporter son ordinateur portable

Le programme de la formation Machine Learning distribué avec Spark

Jour 1 : Manipuler et transformer des données avec Spark

Introduction
  • Définition, architecture, technologie
  • API de programmation Spark en Python (pyspark)
  • Le Machine Learning avec Spark
Machine Learning : quelques rappels
  • Définition et cas d’usage du Machine Learning
  • Workflow d’un projet de Machine Learning : des données brutes aux prédictions
  • Rappels des principaux algorithmes
Structure des données en Spark
  • Dataframe, RDD (Résilient Distributed Dataset)
  • Distribution des données dans le cluster : les partitions
Manipulation des données avec SparkSQL
  • Opérations basiques : tris, sélections, agrégations, jointures
  • User Defined Functions (UDF)
  • Utilisation des fonctions natives
Feature engineering avec Spark
  • Utilisation des Transformers
  • Création d’un pipeline
  • Préparation des données pour la modélisation

Jour 2 : Créer et optimiser des modèles prédictifs avec Spark

Premiers modèles : les régressions
  • Régression linéaire
  • Régression logistique
Algorithmes basés sur des arbres de décision
  • Arbres de décision
  • Random Forests
  • Gradient Boosted Trees
Autres algorithmes
  • Réduction de dimension : PCA
  • Clustering : K-means
Optimiser les modèles
  • Mesurer la qualité des modèles avec les Evaluators
  • Construire un gridsearch pour trouver les meilleurs hyper-paramètres

Télécharger le programme

Le(s) formateur(s)

Christophe Labrousse

Christophe Labrousse

Christophe est ingénieur en informatique et en mathématiques appliquées. Après avoir été diplômé de l'Ensimag en 2006, il a été consultant, fondateur de startup, responsable de système d'information, développeur freelance, et a notamment développé des applications de finance personnelle et de Business Intelligence. Au travers de ces expériences, il a pu acquérir une forte culture "data" et a toujours recherché la meilleure technologie pour exploiter la valeur des données.

Christophe met en oeuvre des solutions basées sur le machine learning avec Python, scikit-learn, et diverses plateformes cloud. Formateur passionné et pédagogue, il aime enseigner à des profils variés la puissance de ces techniques quand elles sont mises en oeuvre sur les bons jeux de données. Il est également expérimenté en technologies de bases de données SQL, de traitement de données (Pandas), et web (Django, Selenium).

Voir son profil détaillé

Suivi de formation en option

A l'issue de la formation, nos formateurs peuvent aussi intervenir pour vous accompagner dans la mise en application des compétences acquises :

  • en répondant à vos questions lors de rendez-vous téléphoniques réguliers
  • en étant présents physiquement à l'amorce du projet
  • en réalisant un audit de vos pratiques quelques semaines/mois après la formation

Cette idée vous intéresse ? Faîtes-le nous savoir pour que nous trouvions la formule adaptée à votre situation.