Formation CUDA

Name: Formation CUDA
Brand: Human Coders
SKU: 6323
Price: 2800 EUR
Availability: InStock
Rating: 4.7 (15 reviews)

Accélérez vos applications C++ et IA avec CUDA 13.1 et les GPU NVIDIA (Hopper/Blackwell) — de l’analyse au déploiement en production.

Description
Programme
Formateur(s)

Description
Programme
Formateur(s)
Demander un devis

Cette formation CUDA vous permettra d’accélérer efficacement vos applications C++ et vos workloads IA grâce aux GPU NVIDIA et aux nouveautés de CUDA 13.1.

Pendant 4 jours, vous apprendrez à :

Analyser les performances d’une application C++ et identifier les hotspots
Porter un algorithme CPU vers le GPU avec CUDA
Optimiser les accès mémoire et l’occupancy avec CUDA 13.1
Exploiter CUDA Tile et les Tensor Cores pour des workloads IA
Mettre en place du profiling avancé avec Nsight
Industrialiser une application GPU en environnement multi-GPU avec NCCL

La formation suit le cycle APOD (Assess, Parallelize, Optimize, Deploy) afin de garantir des gains mesurables en production.

Public

Cette formation s’adresse aux développeur·se·s C/C++, ingénieur·e·s performance, data engineers et équipes IA souhaitant exploiter pleinement la puissance du calcul parallèle.

Les objectifs

Évaluer la pertinence d’un portage GPU sur un code existant
Développer des kernels CUDA performants en C++
Optimiser la hiérarchie mémoire et les accès GPU
Exploiter CUDA Tile et les Tensor Cores pour l’IA
Analyser les performances avec Nsight Systems et Compute
Déployer une application optimisée en environnement multi-GPU

Pré-requis

Maîtriser les bases du langage C ou C++
Comprendre les notions d’algorithmique et de structures de données
Être à l’aise avec la compilation et la ligne de commande
Avoir des bases en parallélisme ou en performance
Ordinateur portable à apporter

Le programme de la formation CUDA

Jour 1 — Architectures GPU NVIDIA (Hopper/Blackwell) et portage d’applications C++ vers le GPU

Architectures GPU NVIDIA 2026
- Hopper, Blackwell et évolution des Streaming Multiprocessors
- Tensor Cores nouvelle génération
- Bande passante mémoire et implications performance
- Compatibilité forward et CUDA 13.1
Fondamentaux CUDA pour développeurs C++
- Modèle d’exécution : threads, blocs, grilles, warps
- Organisation host / device
- Compilation avec nvcc et intégration CMake
- Gestion des erreurs et synchronisation
Introduction à CUDA Tile
- Modèle tile-based
- Simplification des kernels Tensor Cores
- Cas d’usage IA et calcul matriciel

Mises en pratique :

Analyse d’un code C++ existant (profiling CPU)
Identification des hotspots
Portage GPU simple
Pair programming pour debugging collaboratif
Benchmark CPU vs GPU

Jour 2 — Optimisation CUDA 13.1 (mémoire GPU, CUDA Tile et accélération de workloads IA)

Hiérarchie mémoire GPU et optimisation
- Mémoire globale, partagée, registres
- Unified Memory et Pinned Memory
- Coalescing et bank conflicts
- Occupancy et dimensionnement optimal
Roofline Model appliqué aux applications réelles
- Distinction memory bound vs compute bound
- Analyse avec Nsight Compute
- Optimisation progressive d’un kernel
Accélération IA avec CUDA 13.1
- CUDA Tile appliqué aux Tensor Cores
- cuTile (DSL Python pour kernels haute performance)
- Introduction à NCCL 2.28 et communications fusionnées
- Cas d’usage deep learning et inférence scalable

Mises en pratique :

Optimisation progressive d’une multiplication matricielle
Visualisation Roofline en temps réel
Implémentation d’une activation ReLU optimisée GPU
Comparaison performance CPU / GPU / GPU optimisé

Jour 3 — Profiling et performance GPU (Tensor Cores, asynchronisme avancé et déploiement en production)

Profiling avancé CUDA 13.1
- Nsight Systems et Nsight Compute
- Analyse de la divergence de warps
- Mesure de l’occupancy
- Détection des goulots d’étranglement mémoire
Optimisations modernes GPU
- Réduction parallèle
- Loop unrolling
- Streams multiples
- Overlap transfert / calcul
- Asynchronisme avancé CUDA 13.1
Pipeline entreprise GPU-ready
- Data ingestion
- Pré-processing GPU
- Calcul intensif
- Inférence et post-processing
- Mesure end-to-end

Mises en pratique :

Profiling d’un kernel volontairement inefficace
Optimisation guidée en groupe
Construction d’un pipeline GPU complet
Mesure comparative CPU vs GPU sur workflow réel

Jour 4 — Scalabilité Multi-GPU avec NCCL pour industrialiser des applications IA et calcul intensif

Multi-GPU et scalabilité
- Introduction à NCCL 2.28
- Communications fusionnées
- Topologies inter-GPU
- Patterns IA distribuée
Tensor Cores nouvelle génération
- FP8 sur Hopper
- Optimisations Blackwell
- CUDA Tile pour workloads IA
Industrialisation et bonnes pratiques production
- Intégration continue et tests GPU
- Monitoring performance
- Gestion mémoire en environnement partagé
- Stratégie APOD complète en entreprise

Mises en pratique :

Choix d’un cas concret : mini pipeline IA, simulation scientifique, moteur de pricing Monte Carlo ou traitement d’image
Analyse des performances CPU existantes et identification des goulots d’étranglement (Assess)
Portage progressif des parties critiques vers le GPU avec CUDA (Parallelize)
Optimisation mémoire, occupancy et Tensor Cores avec CUDA 13.1 et CUDA Tile (Optimize)
Intégration dans un pipeline complet et mesure end-to-end des performances (Deploy)
Présentation chiffrée des gains obtenus (speedup, latence, throughput)
Revue de code collective et échanges sur les bonnes pratiques production

Télécharger le programme

Formateur

Christophe HENNEKINNE

Ingénieur de l’École Polytechnique et diplômé de Caltech, Christophe s’est spécialisé dans le calcul haute performance appliqué à la mécanique des fluides. Il a découvert alors la programmation GPU via CUDA dès 2013 à l’université de Cambridge. Il a ensuite développé et optimisé des codes de calcul scientifique sur supercalculateurs, en explorant activement le portage GPU.

Désormais, il accompagne des équipes sur des projets variés : portage et optimisation de codes existants, calcul scientifique, applications temps réel, etc. Sa veille constante sur les évolutions rapides des cartes graphiques, fortement liées à l’IA, lui permet de transposer ces avancées à d’autres domaines scientifiques.

En tant que formateur, Christophe privilégie une pédagogie vivante qui alterne apports théoriques et pratiques sur des applications variées. Il aide les développeurs à comprendre l’architecture GPU pour choisir les bonnes stratégies de parallélisation et maximiser les gains. Avec lui, les formations deviennent un moment d’échange concret et humain, directement ancré dans les réalités du terrain.

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
9h30 : la formation commence
12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
14h : reprise de la formation
18h : fin de la journée

8 raisons de participer à une formation Human Coders

Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1900 sessions réalisées). 99% des participants se disent satisfaits de nos formations
Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
Catalogue de formations complet : 261 formations au catalogue, de quoi vous accompagner sur tout vos projets
Écosystème dynamique : Nous accompagnons les dev depuis 14 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux