Formation Python Scientifique

Notée : (41)

Découvrez les librairies Python indispensables pour la Data Science lors de cette formation Python Scientifique complète orientée pratique de 5 jours !

Prix (Formation inter-entreprise)

2500€ HT / personne

Durée

5 jours

Dates

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Il existe 3 principaux profils d'utilisateur·rice·s du langage de programmation Python :

  • Les administrateur·rice·s systèmes,
  • Les développeur·se·s web,
  • Et ceux·celles qui calculent !

Notre formation s'adresse à la troisième catégorie, ceux pour qui Python est devenu un outil du quotidien pour la Data Science et qui ont de forts besoins en calcul numérique ou en visualisation de données.

Cette popularité du Python auprès des plus grands cerveaux de cette planète est très certainement liée aux qualités de ce langage et des bibliothèques que nous vous proposons de découvrir :

  • Python est simple, facile et riche : ces scientifiques et ingénieur·e·s ne sont pas tou·te·s informaticien·ne·s et l'apprentissage de Python est bien plus facile que celui d'autres langages aussi utilisés dans ces secteurs tels Fortran, C/C++ ou encore R qui, lui, est aussi simple mais limité aux pures statistiques ;
  • les bibliothèques scientifiques de Python couvrent quasiment tous les domaines des sciences (Mathématiques, physique, chimie, biologie, astronomie, mécanique, imagerie, intelligence artificielle, statistiques, finance...) ;
  • elles sont open source, donc gratuites, personnalisables et très performantes ;
  • elles peuvent être utilisées en dehors des environnements de simulation et déployées en production ;
  • elles concurrencent et parfois dépassent les logiciels les plus pointus du domaine tels MatLab, Mathematica, Statistica, ...
  • elles sont souvent développées par les scientifiques et ingénieur·e·s eux-mêmes et donc particulièrement adaptées à leurs métiers ;
  • elles bénéficient d'une communauté très active ;

Cette formation Python Scientifique vous propose de découvrir cet univers scientifique et les principales librairies Python pour la Data Science à connaître.

Elle aborde enfin les algorithmes d'apprentissage au travers la librairie scikit-learn afin de vous permettre de dénicher les informations les plus précieuses qui se cachent dans vos données brutes.

Les objectifs

  • Apprendre à maîtriser les librairies de calcul numérique suivantes : Numpy, SciPy, Pandas et Matplotlib
  • Mettre en oeuvre des algorithmes d'apprentissage pour exploiter et classifier ses données

Pré-requis

  • Ordinateur à apporter
  • Connaître l'algorithmie
  • Avoir une première expérience du langage Python
  • Avoir fait des mathématiques jusqu'au bac

Le programme de la formation Python Scientifique

La formation se veut essentiellement pratique. La découverte des différentes bibliothèques étudiées se fait progressivement au travers d'exercices variés, conçu pour que les notions vus durant les premiers jours soient re-utilisé en fin de formations.

Première partie : L'écosystème scientifique et choisir son environnement de travail

1. Présentation de l'écosystème « Python scientifique »
1.1. Notre galaxie des librairies étudiées
- Numpy
- SciPy
- Matplotlib
- Pylab (les 3 précédentes en 1)
- Pandas
- Scikit-Learn
1.2 Savoir trouver toutes les autres galaxies de cet univers...
2. Choisir un environnement de travail
- Les distributions Python (Enthought , Anaconda, WinPython, ...)
- Les IDE de développement (Spyder, Eclipse, PyCharm, ...)

Seconde partie : Le calcul numérique avec Python

Dans cette partie nous découvrirons les librairies qui constituent les fondations de l'univers scientifique de Python.

1. Considérations de base sur la représentation des nombres en informatique et avec Python
- Les nombres avec Python
- Les nombres avec Numpy
- Les problèmes d'arrondi : ne stockez jamais des valeurs monétaires dans des réels !
2. Numpy - Le socle de calcul numérique

Numpy est la librairie principale sur laquelle s'appuient quasiment toutes les autres librairies scientifiques.
Elle offre des fonctions puissantes de manipulation de tableaux de nombres et est incontournable pour tout ce qui touche au calcul et en particulier à l'algèbre linéaire.

- Les différents types de données avec Numpy
- Opérations matricielles
- Les fonctions incontournables
- Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab
3. Pandas

Pandas est une librairie qui permet de manipuler des structures de données complexes efficacement.
Exactement comme vous le feriez dans Excel, mais cette fois avec Python et tout aussi simplement, si ce n'est plus facilement et surtout plus rapidement.
Elle peut gérer des millions d'enregistrements et est parfaitement adaptée pour réaliser des statistiques et regroupement de données dans des projets BigData.

- Séries et Matrices de données hétérogènes(DataFrame)
- Entrées/Sorties
- Sélection et indexation des données
- Manipulations de données (groupement, ajout, suppression, redimensionnement, pivots, …)
- Opérations et statistiques
4. Matplotlib

Matplotlib est une librairie qui permet de faire des tracés et visualiser des données. Tout type de représentations, 2D comme 3D peuvent alors être dessinées grâce à elle. Elle permet les interactions avec l'utilisateur et les animations.

- Concepts des tracés
- Premiers graphiques : courbes, titres et légendes
- Axes, échelles de représentations
- Couleurs et styles
5. Scipy

SciPy offre un ensemble de fonctions et d'outils mathématiques s'appuyant sur Numpy.
Elle spécialise l'utilisation de cette dernière dans différentes branches du calcul numérique. Nous l'utiliserons sur deux problématiques:

- L'interpolation de données météorologiques
- Le traitement d'images 

Troisième partie : Dataviz

Pour bien comprendre et analyser vos données, vous aurez probablement besoin de pouvoir les visualiser. Nous viendrons compléter Matplolib par plusieurs bibliothèques permettant de l'étoffer (Seaborn, Altair, etc.).

Nous ferons également la part belles aux données cartographiques qui présentent des problématiques particulières.

Quatrième partie : Essentiels de la programmation parallèle

La plupart des applications en calcul scientifique reposent sur une parallélisation des algorithmes qu'elles utilisent. La popularité de bibliothèques comme Numpy et Pandas s'expliquent par leur rapidité permise par une implémentation permettant d'utiliser les possibilités de parallélisations offertes par les machines actuelles.

L'objectif de cette partie de la formation n'est pas de faire de vous des experts en calcul parallèle mais de vous sensibiliser à ses particularités. Nous utiliserons les bibliothèques Multi Threading et Multi Processing de Python pour donner une illustration pratique de chacun de ses concepts étudiés.

Cinquième partie : Machine Learning - Apprentissage machine

Nous vivons dans une des périodes les plus décisives pour l'histoire de l'humanité.
L'informatique a joué et joue depuis sa création un rôle important dans cette évolution, que ce soit à l'époque des mainframes ou encore du tout PC mais surtout aujourd'hui avec le Cloud.

Aujourd'hui, il est possible de faire des calculs complexes, et d'analyser des milliards de données. Tout cela pour des coûts très bas.

"Google’s self-driving cars and robots get a lot of press, but the company’s real future is in machine learning,
the technology that enables computers to get smarter and more personal."

Eric Schmidt (Google Chairman)
1. Les différents types d'apprentissage et leurs principaux algorithmes

Ce chapitre plus théorique présente les concepts de l'apprentissage automatique et les principaux algorithmes utilisés par cette discipline.

- L'apprentissage non supervisé
- L'apprentissage supervisé
- L'apprentissage par renforcement
- La notion de problème de régression
- La notion de problème de classification
2. Scikit-Learn

Scikit-Learn est probablement la plus populaire librairie d'algorithmes d'apprentissage automatique pour Python et peut-être même tous langages confondus.
Elle possède un grand nombre de fonctionnalités spécialisées dans l'analyse de données et le data Mining qui en font un outil de choix pour les chercheurs et développeurs.

Ce chapitre vous permettra de mettre en oeuvre les différents algorithmes présentés ci-dessous .

Seront abordés :

- Linear Regression (régression linéaire)
- Dimensionality Reduction Algorithms
- KMeans
- SVM (séparateur à vaste marge ou machines à vecteur de support)
- Decision Tree (Arbre de décision) et Random Forest (Forêt Aléatoire) 

Télécharger le programme

3 témoignages

Excellent formateur, Formation très intéressante

Koceila MEHANI

L'utilisation des 'Jupyter Notebook' permet vraiment d'avancer sur l'aspect pratique. A conserver donc

Benoit ROCHER

Formation qui s'adapte à un public hétérogène. Chacun peut aller à son rythme. Même en découvrant Python, j'ai le sentiment d'avoir appris l'essentiel pour débuter sans retarder les autres stagiaires plus expérimentés.

Victor FARACI

Besoin d'aide ?

Vous souhaitez discuter avec nous à propos de votre projet de formation ?
Vous voulez plus d'information sur une formation ou notre fonctionnement ?


Rappel Email

Nos forces

  • Des formations à taille humaine
  • Des formateurs passionnés
  • Des véritables workshop
Accéder au Manifeste

Nos clients

Air France
Meetic
EADS
Voyage SNCF
Orange
Boursorama

Nos formations en images

Sass et Compass
CasperJS
Ruby on Rails
Ruby

Formation Python Scientifique

Notée : (41)

Découvrez les librairies Python indispensables pour la Data Science lors de cette formation Python Scientifique complète orientée pratique de 5 jours !

Il existe 3 principaux profils d'utilisateur·rice·s du langage de programmation Python :

  • Les administrateur·rice·s systèmes,
  • Les développeur·se·s web,
  • Et ceux·celles qui calculent !

Notre formation s'adresse à la troisième catégorie, ceux pour qui Python est devenu un outil du quotidien pour la Data Science et qui ont de forts besoins en calcul numérique ou en visualisation de données.

Cette popularité du Python auprès des plus grands cerveaux de cette planète est très certainement liée aux qualités de ce langage et des bibliothèques que nous vous proposons de découvrir :

  • Python est simple, facile et riche : ces scientifiques et ingénieur·e·s ne sont pas tou·te·s informaticien·ne·s et l'apprentissage de Python est bien plus facile que celui d'autres langages aussi utilisés dans ces secteurs tels Fortran, C/C++ ou encore R qui, lui, est aussi simple mais limité aux pures statistiques ;
  • les bibliothèques scientifiques de Python couvrent quasiment tous les domaines des sciences (Mathématiques, physique, chimie, biologie, astronomie, mécanique, imagerie, intelligence artificielle, statistiques, finance...) ;
  • elles sont open source, donc gratuites, personnalisables et très performantes ;
  • elles peuvent être utilisées en dehors des environnements de simulation et déployées en production ;
  • elles concurrencent et parfois dépassent les logiciels les plus pointus du domaine tels MatLab, Mathematica, Statistica, ...
  • elles sont souvent développées par les scientifiques et ingénieur·e·s eux-mêmes et donc particulièrement adaptées à leurs métiers ;
  • elles bénéficient d'une communauté très active ;

Cette formation Python Scientifique vous propose de découvrir cet univers scientifique et les principales librairies Python pour la Data Science à connaître.

Elle aborde enfin les algorithmes d'apprentissage au travers la librairie scikit-learn afin de vous permettre de dénicher les informations les plus précieuses qui se cachent dans vos données brutes.

Les objectifs

  • Apprendre à maîtriser les librairies de calcul numérique suivantes : Numpy, SciPy, Pandas et Matplotlib
  • Mettre en oeuvre des algorithmes d'apprentissage pour exploiter et classifier ses données

Pré-requis

  • Ordinateur à apporter
  • Connaître l'algorithmie
  • Avoir une première expérience du langage Python
  • Avoir fait des mathématiques jusqu'au bac

Le programme de la formation Python Scientifique

La formation se veut essentiellement pratique. La découverte des différentes bibliothèques étudiées se fait progressivement au travers d'exercices variés, conçu pour que les notions vus durant les premiers jours soient re-utilisé en fin de formations.

Première partie : L'écosystème scientifique et choisir son environnement de travail

1. Présentation de l'écosystème « Python scientifique »
1.1. Notre galaxie des librairies étudiées
- Numpy
- SciPy
- Matplotlib
- Pylab (les 3 précédentes en 1)
- Pandas
- Scikit-Learn
1.2 Savoir trouver toutes les autres galaxies de cet univers...
2. Choisir un environnement de travail
- Les distributions Python (Enthought , Anaconda, WinPython, ...)
- Les IDE de développement (Spyder, Eclipse, PyCharm, ...)

Seconde partie : Le calcul numérique avec Python

Dans cette partie nous découvrirons les librairies qui constituent les fondations de l'univers scientifique de Python.

1. Considérations de base sur la représentation des nombres en informatique et avec Python
- Les nombres avec Python
- Les nombres avec Numpy
- Les problèmes d'arrondi : ne stockez jamais des valeurs monétaires dans des réels !
2. Numpy - Le socle de calcul numérique

Numpy est la librairie principale sur laquelle s'appuient quasiment toutes les autres librairies scientifiques.
Elle offre des fonctions puissantes de manipulation de tableaux de nombres et est incontournable pour tout ce qui touche au calcul et en particulier à l'algèbre linéaire.

- Les différents types de données avec Numpy
- Opérations matricielles
- Les fonctions incontournables
- Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab
3. Pandas

Pandas est une librairie qui permet de manipuler des structures de données complexes efficacement.
Exactement comme vous le feriez dans Excel, mais cette fois avec Python et tout aussi simplement, si ce n'est plus facilement et surtout plus rapidement.
Elle peut gérer des millions d'enregistrements et est parfaitement adaptée pour réaliser des statistiques et regroupement de données dans des projets BigData.

- Séries et Matrices de données hétérogènes(DataFrame)
- Entrées/Sorties
- Sélection et indexation des données
- Manipulations de données (groupement, ajout, suppression, redimensionnement, pivots, …)
- Opérations et statistiques
4. Matplotlib

Matplotlib est une librairie qui permet de faire des tracés et visualiser des données. Tout type de représentations, 2D comme 3D peuvent alors être dessinées grâce à elle. Elle permet les interactions avec l'utilisateur et les animations.

- Concepts des tracés
- Premiers graphiques : courbes, titres et légendes
- Axes, échelles de représentations
- Couleurs et styles
5. Scipy

SciPy offre un ensemble de fonctions et d'outils mathématiques s'appuyant sur Numpy.
Elle spécialise l'utilisation de cette dernière dans différentes branches du calcul numérique. Nous l'utiliserons sur deux problématiques:

- L'interpolation de données météorologiques
- Le traitement d'images 

Troisième partie : Dataviz

Pour bien comprendre et analyser vos données, vous aurez probablement besoin de pouvoir les visualiser. Nous viendrons compléter Matplolib par plusieurs bibliothèques permettant de l'étoffer (Seaborn, Altair, etc.).

Nous ferons également la part belles aux données cartographiques qui présentent des problématiques particulières.

Quatrième partie : Essentiels de la programmation parallèle

La plupart des applications en calcul scientifique reposent sur une parallélisation des algorithmes qu'elles utilisent. La popularité de bibliothèques comme Numpy et Pandas s'expliquent par leur rapidité permise par une implémentation permettant d'utiliser les possibilités de parallélisations offertes par les machines actuelles.

L'objectif de cette partie de la formation n'est pas de faire de vous des experts en calcul parallèle mais de vous sensibiliser à ses particularités. Nous utiliserons les bibliothèques Multi Threading et Multi Processing de Python pour donner une illustration pratique de chacun de ses concepts étudiés.

Cinquième partie : Machine Learning - Apprentissage machine

Nous vivons dans une des périodes les plus décisives pour l'histoire de l'humanité.
L'informatique a joué et joue depuis sa création un rôle important dans cette évolution, que ce soit à l'époque des mainframes ou encore du tout PC mais surtout aujourd'hui avec le Cloud.

Aujourd'hui, il est possible de faire des calculs complexes, et d'analyser des milliards de données. Tout cela pour des coûts très bas.

"Google’s self-driving cars and robots get a lot of press, but the company’s real future is in machine learning,
the technology that enables computers to get smarter and more personal."

Eric Schmidt (Google Chairman)
1. Les différents types d'apprentissage et leurs principaux algorithmes

Ce chapitre plus théorique présente les concepts de l'apprentissage automatique et les principaux algorithmes utilisés par cette discipline.

- L'apprentissage non supervisé
- L'apprentissage supervisé
- L'apprentissage par renforcement
- La notion de problème de régression
- La notion de problème de classification
2. Scikit-Learn

Scikit-Learn est probablement la plus populaire librairie d'algorithmes d'apprentissage automatique pour Python et peut-être même tous langages confondus.
Elle possède un grand nombre de fonctionnalités spécialisées dans l'analyse de données et le data Mining qui en font un outil de choix pour les chercheurs et développeurs.

Ce chapitre vous permettra de mettre en oeuvre les différents algorithmes présentés ci-dessous .

Seront abordés :

- Linear Regression (régression linéaire)
- Dimensionality Reduction Algorithms
- KMeans
- SVM (séparateur à vaste marge ou machines à vecteur de support)
- Decision Tree (Arbre de décision) et Random Forest (Forêt Aléatoire) 

Télécharger le programme

Le(s) formateur(s)

Gaël Pegliasco

Gaël Pegliasco

Ingénieur développement et chef de projet chez Makina Corpus, Gaël a plus de 19 ans d'expérience dont 13 sur la conception et le développement de projets web. Expert Python et formateur sur de nombreuses technologies, Gaël n'hésite pas à transmettre la richesse de son expérience au travers de sa pédagogie participative.

Voir son profil détaillé

Bérengère Mathieu

Bérengère Mathieu

Pendant cinq ans, Bérengère a formé les étudiants de l’Université Paul Sabatier dans les domaines de la programmation et de l'analyse d'images. Après un doctorat en spécialité image, information et hypermédia, elle a rejoint l’entreprise Makina Corpus en tant que développeuse Python. Ses compétences en machines learning et son expérience dans l'enseignement, lui permettront de vous accompagner dans la découverte du langage Python et de son utilisation pour la résolution de problématiques scientifiques.

Voir son profil détaillé

Suivi de formation en option

A l'issue de la formation, nos formateurs peuvent aussi intervenir pour vous accompagner dans la mise en application des compétences acquises :

  • en répondant à vos questions lors de rendez-vous téléphoniques réguliers
  • en étant présents physiquement à l'amorce du projet
  • en réalisant un audit de vos pratiques quelques semaines/mois après la formation

Cette idée vous intéresse ? Faîtes-le nous savoir pour que nous trouvions la formule adaptée à votre situation.

3 témoignages

Excellent formateur, Formation très intéressante

Koceila MEHANI

L'utilisation des 'Jupyter Notebook' permet vraiment d'avancer sur l'aspect pratique. A conserver donc

Benoit ROCHER

Formation qui s'adapte à un public hétérogène. Chacun peut aller à son rythme. Même en découvrant Python, j'ai le sentiment d'avoir appris l'essentiel pour débuter sans retarder les autres stagiaires plus expérimentés.

Victor FARACI