Formation Machine Learning Avancé

Approfondissez votre connaissance du Machine Learning pour rendre vos modèles plus performants

Prix (Formation inter-entreprise)

1800€ HT / personne

Durée

2 jours

Dates

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Apprenez à utiliser les techniques actuelles de modélisation prédictive les plus performantes, employées par les meilleurs compétiteurs dans les challenges de Machine Learning.
Au travers de cette formation, vous mettrez en pratique la théorie sur divers types de données structurées — y compris sur de très gros volumes (plusieurs Go) — au travers de challenges Kaggle, en utilisant les librairies Python pandas, scikit-learn, XGBoost et Hyperopt. À la fin des 2 jours, vous disposerez de connaissances avancées et pratiques vous permettant de sélectionner les meilleurs algorithmes pour vos problèmes de ML, d’optimiser vos modèles de façon intelligente et de les mettre à jour en continu.

La formation est principalement destinée aux développeurs et ingénieurs informaticiens expérimentés en Machine Learning. Elle sera également d’intérêt aux statisticiens et data scientists souhaitant approfondir et mettre en pratique leurs connaissances de Machine Learning avec les outils Python. Si vous êtes débutant, consultez notre formation Machine Learning Débutant. Si votre priorité est de développer des applications perceptives — qui “comprennent” l’image ou le son, par exemple — ou si vous êtes déjà à l'aise avec les sujets abordés ici, notre formation Deep Learning est faite pour vous.

Les objectifs

  • Savoir choisir les bons algorithmes d’apprentissage en fonction du problème à résoudre (ensembles d’arbres de décision, modélisation linéaire / non linéaire, régularisation)
  • Créer des modèles prédictifs qui peuvent se mettre à jour en continu, et ingérer de gros volumes de données
  • Trouver les meilleurs compromis entre temps de calcul et qualité des prédictions
  • Comprendre et mettre en pratique la technique du Boosting, utilisée dans les meilleures solutions aux compétitions de Machine Learning
  • Optimiser ses modèles prédictifs, grâce aux techniques intelligentes d’optimisation du choix d’hyperparamètres (“AutoML”) et aux architectures complexes d’ensembles de modèles (Stacking)

Pré-requis

  • Avoir suivi la formation Machine Learning Débutant, dont celle-ci est la suite directe, ou bien maîtriser les concepts suivants :
    • Arbres de décisions et random forests
    • Procédures d’évaluation des modèles prédictifs et critères d’évaluation les plus connus (MSE, R², AUC, Precisions/Recall, Accuracy)
    • Surapprentissage (overfitting)
    • Fuite de données (data leakage)
  • Expérience de Python et scikit-learn
  • [Optionnel] Connaissances basiques en mathématiques appréciables pour une meilleure compréhension de certains modules théoriques
  • Ordinateur portable à apporter

Le programme de la formation Machine Learning Avancé

Jour 1

Apprentissage sur gros volumes de données

  • Régression linéaire et logistique
  • Présentation de l’algorithme de descente de gradient (stochastique, mini-batch); intuition de ses principaux paramètres
  • Mise à jour de modèles en flux continu et apprentissage hors-mémoire
  • Mise en pratique avec scikit-learn sur un jeu de données qui ne tient pas en mémoire vive
  • Considérations supplémentaires : hashing trick, dilemme exploration/exploitation

Modélisation non linéaire

  • Régression polynomiale
  • Régularisation : L1 (Lasso), L2 (Ridge), ElasticNet
  • Support Vector Machines, pour classification et régression (SVC et SVR)
  • Fonctions noyaux : fonctionnement, avantages, et coût algorithmique
  • Mise en pratique avec scikit-learn
  • Comparaison pratique avec modèles linéaires sur datasets de diverses tailles

Préparation des données

  • Enrichissement et sélection de features
  • Remplacement de valeurs manquantes
  • Normalisation
  • Pipelines

Jour 2

Boosting

  • Principe du boosting, classe d’algorithmes souvent plus performants que les random forests (XGBoost, LightGBM…)
  • Description de leurs principaux paramètres, délicats à prendre en main et importants à maîtriser
  • Principe des techniques avancées d’optimisation intelligente des hyper-paramètres
  • Mise en pratique avec Hyperopt
  • Comparaison pratique avec random forests et modèles non linéaires

Stacking

  • Principe du stacking et état de l’art des architectures d’ensembles de modèles prédictifs
  • Explication des systèmes les plus performants sur les concours Kaggle sur des données structurées
  • Exercice final mettant en pratique une architecture de stacking utilisant tous les types de modèles vus dans la formation

Conclusions

  • Récapitulatif des points clé de la formation
  • Comment choisir le bon algorithme d’apprentissage, en fonction du problème
  • Ressources pour aller plus loin et suggestions personnalisées

Télécharger le programme

Besoin d'aide ?

Vous souhaitez discuter avec nous à propos de votre projet de formation ?
Vous voulez plus d'information sur une formation ou notre fonctionnement ?


Rappel Email

Nos forces

  • Des formations à taille humaine
  • Des formateurs passionnés
  • Des véritables workshop
Accéder au Manifeste

Nos clients

Société Générale
Atos
Banque Postale
Air France
BNP Paribas
Axa

Nos formations en images

Sass et Compass
CasperJS
Ruby on Rails
Ruby

Formation Machine Learning Avancé

Approfondissez votre connaissance du Machine Learning pour rendre vos modèles plus performants

Apprenez à utiliser les techniques actuelles de modélisation prédictive les plus performantes, employées par les meilleurs compétiteurs dans les challenges de Machine Learning.
Au travers de cette formation, vous mettrez en pratique la théorie sur divers types de données structurées — y compris sur de très gros volumes (plusieurs Go) — au travers de challenges Kaggle, en utilisant les librairies Python pandas, scikit-learn, XGBoost et Hyperopt. À la fin des 2 jours, vous disposerez de connaissances avancées et pratiques vous permettant de sélectionner les meilleurs algorithmes pour vos problèmes de ML, d’optimiser vos modèles de façon intelligente et de les mettre à jour en continu.

La formation est principalement destinée aux développeurs et ingénieurs informaticiens expérimentés en Machine Learning. Elle sera également d’intérêt aux statisticiens et data scientists souhaitant approfondir et mettre en pratique leurs connaissances de Machine Learning avec les outils Python. Si vous êtes débutant, consultez notre formation Machine Learning Débutant. Si votre priorité est de développer des applications perceptives — qui “comprennent” l’image ou le son, par exemple — ou si vous êtes déjà à l'aise avec les sujets abordés ici, notre formation Deep Learning est faite pour vous.

Les objectifs

  • Savoir choisir les bons algorithmes d’apprentissage en fonction du problème à résoudre (ensembles d’arbres de décision, modélisation linéaire / non linéaire, régularisation)
  • Créer des modèles prédictifs qui peuvent se mettre à jour en continu, et ingérer de gros volumes de données
  • Trouver les meilleurs compromis entre temps de calcul et qualité des prédictions
  • Comprendre et mettre en pratique la technique du Boosting, utilisée dans les meilleures solutions aux compétitions de Machine Learning
  • Optimiser ses modèles prédictifs, grâce aux techniques intelligentes d’optimisation du choix d’hyperparamètres (“AutoML”) et aux architectures complexes d’ensembles de modèles (Stacking)

Pré-requis

  • Avoir suivi la formation Machine Learning Débutant, dont celle-ci est la suite directe, ou bien maîtriser les concepts suivants :
    • Arbres de décisions et random forests
    • Procédures d’évaluation des modèles prédictifs et critères d’évaluation les plus connus (MSE, R², AUC, Precisions/Recall, Accuracy)
    • Surapprentissage (overfitting)
    • Fuite de données (data leakage)
  • Expérience de Python et scikit-learn
  • [Optionnel] Connaissances basiques en mathématiques appréciables pour une meilleure compréhension de certains modules théoriques
  • Ordinateur portable à apporter

Le programme de la formation Machine Learning Avancé

Jour 1

Apprentissage sur gros volumes de données

  • Régression linéaire et logistique
  • Présentation de l’algorithme de descente de gradient (stochastique, mini-batch); intuition de ses principaux paramètres
  • Mise à jour de modèles en flux continu et apprentissage hors-mémoire
  • Mise en pratique avec scikit-learn sur un jeu de données qui ne tient pas en mémoire vive
  • Considérations supplémentaires : hashing trick, dilemme exploration/exploitation

Modélisation non linéaire

  • Régression polynomiale
  • Régularisation : L1 (Lasso), L2 (Ridge), ElasticNet
  • Support Vector Machines, pour classification et régression (SVC et SVR)
  • Fonctions noyaux : fonctionnement, avantages, et coût algorithmique
  • Mise en pratique avec scikit-learn
  • Comparaison pratique avec modèles linéaires sur datasets de diverses tailles

Préparation des données

  • Enrichissement et sélection de features
  • Remplacement de valeurs manquantes
  • Normalisation
  • Pipelines

Jour 2

Boosting

  • Principe du boosting, classe d’algorithmes souvent plus performants que les random forests (XGBoost, LightGBM…)
  • Description de leurs principaux paramètres, délicats à prendre en main et importants à maîtriser
  • Principe des techniques avancées d’optimisation intelligente des hyper-paramètres
  • Mise en pratique avec Hyperopt
  • Comparaison pratique avec random forests et modèles non linéaires

Stacking

  • Principe du stacking et état de l’art des architectures d’ensembles de modèles prédictifs
  • Explication des systèmes les plus performants sur les concours Kaggle sur des données structurées
  • Exercice final mettant en pratique une architecture de stacking utilisant tous les types de modèles vus dans la formation

Conclusions

  • Récapitulatif des points clé de la formation
  • Comment choisir le bon algorithme d’apprentissage, en fonction du problème
  • Ressources pour aller plus loin et suggestions personnalisées

Télécharger le programme

Le(s) formateur(s)

Louis Dorard

Louis Dorard

Louis Dorard est l’auteur du livre Bootstrapping Machine Learning, du Machine Learning Canvas, General Chair des conférences internationales PAPIs.io, Adjunct Teaching Fellow à UCL School of Management où il enseigne le module Predictive Analytics, membre de l’Advisory Board de France is AI, et co-organisateur du meetup ML de Bordeaux. Dans le cadre de son activité de consultant indépendant, il accompagne grandes entreprises, PME et startups dans l’intégration du ML dans leurs produits. Par le passé, il a “bootstrappé” plusieurs technologies innovantes en tant que Directeur R&D chez Concept Immo Global. Louis est titulaire d’un PhD en Machine Learning de University College London, domaine dans lequel il travaille depuis plus de 10 ans.

Voir son profil détaillé

Christophe Labrousse

Christophe Labrousse

Christophe est ingénieur en informatique et en mathématiques appliquées. Après avoir été diplômé de l'Ensimag en 2006, il a été consultant, fondateur de startup, responsable de système d'information, développeur freelance, et a notamment développé des applications de finance personnelle et de Business Intelligence. Au travers de ces expériences, il a pu acquérir une forte culture "data" et a toujours recherché la meilleure technologie pour exploiter la valeur des données.

Christophe met en oeuvre des solutions basées sur le machine learning avec Python, scikit-learn, et diverses plateformes cloud. Formateur passionné et pédagogue, il aime enseigner à des profils variés la puissance de ces techniques quand elles sont mises en oeuvre sur les bons jeux de données. Il est également expérimenté en technologies de bases de données SQL, de traitement de données (Pandas), et web (Django, Selenium).

Voir son profil détaillé

Suivi de formation en option

A l'issue de la formation, nos formateurs peuvent aussi intervenir pour vous accompagner dans la mise en application des compétences acquises :

  • en répondant à vos questions lors de rendez-vous téléphoniques réguliers
  • en étant présents physiquement à l'amorce du projet
  • en réalisant un audit de vos pratiques quelques semaines/mois après la formation

Cette idée vous intéresse ? Faîtes-le nous savoir pour que nous trouvions la formule adaptée à votre situation.