Formation Polars

Accélérez vos pipelines Python avec Polars : performance, lazy execution et production data optimisée en 3 jours intensifs.

Formation Polars

Description

Cette formation Polars vous permettra de manipuler des données massives en Python avec une performance moderne, idiomatique et scalable.

Pendant 3 jours, vous apprendrez à :

  • Corriger vos réflexes Pandas et écrire du code Polars idiomatique
  • Manipuler efficacement les DataFrames avec l’API expressions
  • Comprendre et exploiter la Lazy Execution
  • Identifier et supprimer les gaspillages de performance
  • Produire des fichiers Parquet optimisés et partitionnés
  • Mesurer objectivement les gains CPU et mémoire

Public

Cette formation s’adresse aux développeur·se·s et data professionals déjà à l’aise avec Python souhaitant améliorer radicalement la performance et la robustesse de leurs traitements.

Les objectifs

  • Écrire des transformations idiomatiques avec l’API expression-first
  • Construire et analyser un plan d’exécution LazyFrame
  • Optimiser un pipeline via predicate et projection pushdown
  • Migrer un traitement Pandas vers Polars proprement
  • Produire des fichiers Parquet partitionnés adaptés à un cas métier
  • Mesurer et interpréter les gains de performance (temps et mémoire)

Pré-requis

  • Maîtriser les bases de Python
  • Avoir déjà manipulé Pandas en contexte professionnel
  • Comprendre les notions de DataFrame, jointures et agrégations
  • Ordinateur portable à apporter

Le programme de la formation Polars

Jour 1 — Migration de Pandas vers Polars : API Expression-First et bonnes pratiques

  • Comprendre la philosophie Polars
    • Architecture columnar
    • Parallélisme natif
    • Absence d’index (et pourquoi c’est une bonne chose)
    • Différences structurantes avec Pandas
  • Pièges classiques des anciens utilisateurs Pandas
    • Pas d’index implicite
    • .loc / .iloc inutiles
    • Pas de inplace=True
    • groupby vs group_by
    • Mutations vs expressions
    • Différence entre df["col"] et .select(pl.col("col"))
    • Pourquoi l’API expression-first change tout
  • Manipulation idiomatique des DataFrames
    • Création de DataFrame
    • .select() et .with_columns()
    • Expressions pl.col(), pl.when().then().otherwise()
    • Casting et gestion des types
    • Jointures et agrégations

Mises en pratique :

  • Mini-exercices de correction de réflexes Pandas → Polars
  • Nettoyage, normalisation, structuration et production d'un dataframe exploitable

Jour 2 — Lazy Execution Polars : Optimisation des performances et analyse des plans d’exécution

  • DataFrame vs LazyFrame
    • Construction d’un plan logique
    • .lazy()
    • .collect()
    • Analyse avec .explain()
  • Quand rester en eager ?
    • Cas simples
    • Dataset petits
    • Coût mental inutile du lazy
  • Quand collect() trop tôt tue la performance
    • Démonstrations avant/après
    • Visualisation du plan d’exécution
    • Impact mesuré
  • Optimisation concrète
    • Predicate pushdown
    • Projection pushdown
    • Réorganisation des opérations
    • Streaming
  • Configuration Polars utile en pratique
    • pl.Config.set_tbl_rows()
    • set_fmt_str_lengths()
    • set_streaming_chunk_size()
    • Paramètres d’affichage

Mises en pratique :

  • Identification et correction de gaspillages dans un plan d’exécution
  • Réalisation d'une comparaison entre Pandas, Polars eager et Polars lazy optimisé

Jour 3 — Polars en production : Parquet, PyArrow, DuckDB et Lakehouse

  • Migration rapide depuis Pandas
    • Tableau de correspondance et cas fréquents
    • Bonnes pratiques idiomatiques
  • Polars + Parquet + PyArrow en production
    • Quand utiliser use_pyarrow=True?
    • row_group_size
    • Compression (zstd, snappy…)
    • Impact réel sur performance et stockage
    • partition_by réaliste
  • Polars dans l’écosystème Data 2026
    • Polars + DuckDB (qui fait quoi ?)
    • Polars + ibis
    • Intégration Snowflake / BigQuery / Databricks
    • Où Polars excelle, où il ne faut pas l’utiliser

Mises en pratique :

  • Exercice de traduction d’un code piégeux de Pandas vers Polars
  • Écriture d’un fichier Parquet partitionné adapté à un cas métier réaliste
  • Lecture et exploitation efficace de données partitionnées
  • Mise en place d’une écriture compatible lakehouse (writedelta ou writeparquet avec partitionnement avancé)
  • Réalisation d’un benchmark comparatif structuré entre Pandas, Polars naïf et Polars optimisé
  • Mesure et analyse des performances (temps d’exécution) et de la consommation mémoire
  • Calcul des gains en pourcentage et identification des optimisations réellement efficaces
  • Rédaction d’un mini-rapport de synthèse réutilisable en contexte professionnel

Télécharger le programme

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

  • 9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
  • 9h30 : la formation commence
  • 12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
  • 14h : reprise de la formation
  • 18h : fin de la journée

8 raisons de participer à une formation Human Coders

  • Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1805 sessions réalisées). 99% des participants se disent satisfaits de nos formations
  • Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
  • Catalogue de formations complet : 216 formations au catalogue, de quoi vous accompagner sur tout vos projets
  • Écosystème dynamique : Nous accompagnons les dev depuis 14 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
  • Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
  • Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
  • Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012