Formation CUDA

Accélérez vos applications C++ et IA avec CUDA 13.1 et les GPU NVIDIA (Hopper/Blackwell) — de l’analyse au déploiement en production.

Formation CUDA

Description

Cette formation CUDA vous permettra d’accélérer efficacement vos applications C++ et vos workloads IA grâce aux GPU NVIDIA et aux nouveautés de CUDA 13.1.

Pendant 4 jours, vous apprendrez à :

  • Analyser les performances d’une application C++ et identifier les hotspots
  • Porter un algorithme CPU vers le GPU avec CUDA
  • Optimiser les accès mémoire et l’occupancy avec CUDA 13.1
  • Exploiter CUDA Tile et les Tensor Cores pour des workloads IA
  • Mettre en place du profiling avancé avec Nsight
  • Industrialiser une application GPU en environnement multi-GPU avec NCCL

La formation suit le cycle APOD (Assess, Parallelize, Optimize, Deploy) afin de garantir des gains mesurables en production.

Public

Cette formation s’adresse aux développeur·se·s C/C++, ingénieur·e·s performance, data engineers et équipes IA souhaitant exploiter pleinement la puissance du calcul parallèle.

Les objectifs

  • Évaluer la pertinence d’un portage GPU sur un code existant
  • Développer des kernels CUDA performants en C++
  • Optimiser la hiérarchie mémoire et les accès GPU
  • Exploiter CUDA Tile et les Tensor Cores pour l’IA
  • Analyser les performances avec Nsight Systems et Compute
  • Déployer une application optimisée en environnement multi-GPU

Pré-requis

  • Maîtriser les bases du langage C ou C++
  • Comprendre les notions d’algorithmique et de structures de données
  • Être à l’aise avec la compilation et la ligne de commande
  • Avoir des bases en parallélisme ou en performance
  • Ordinateur portable à apporter

Le programme de la formation CUDA

Jour 1 — Architectures GPU NVIDIA (Hopper/Blackwell) et portage d’applications C++ vers le GPU

  • Architectures GPU NVIDIA 2026
    • Hopper, Blackwell et évolution des Streaming Multiprocessors
    • Tensor Cores nouvelle génération
    • Bande passante mémoire et implications performance
    • Compatibilité forward et CUDA 13.1
  • Fondamentaux CUDA pour développeurs C++
    • Modèle d’exécution : threads, blocs, grilles, warps
    • Organisation host / device
    • Compilation avec nvcc et intégration CMake
    • Gestion des erreurs et synchronisation
  • Introduction à CUDA Tile
    • Modèle tile-based
    • Simplification des kernels Tensor Cores
    • Cas d’usage IA et calcul matriciel

Mises en pratique :

  • Analyse d’un code C++ existant (profiling CPU)
  • Identification des hotspots
  • Portage GPU simple
  • Pair programming pour debugging collaboratif
  • Benchmark CPU vs GPU

Jour 2 — Optimisation CUDA 13.1 (mémoire GPU, CUDA Tile et accélération de workloads IA)

  • Hiérarchie mémoire GPU et optimisation
    • Mémoire globale, partagée, registres
    • Unified Memory et Pinned Memory
    • Coalescing et bank conflicts
    • Occupancy et dimensionnement optimal
  • Roofline Model appliqué aux applications réelles
    • Distinction memory bound vs compute bound
    • Analyse avec Nsight Compute
    • Optimisation progressive d’un kernel
  • Accélération IA avec CUDA 13.1
    • CUDA Tile appliqué aux Tensor Cores
    • cuTile (DSL Python pour kernels haute performance)
    • Introduction à NCCL 2.28 et communications fusionnées
    • Cas d’usage deep learning et inférence scalable

Mises en pratique :

  • Optimisation progressive d’une multiplication matricielle
  • Visualisation Roofline en temps réel
  • Implémentation d’une activation ReLU optimisée GPU
  • Comparaison performance CPU / GPU / GPU optimisé

Jour 3 — Profiling et performance GPU (Tensor Cores, asynchronisme avancé et déploiement en production)

  • Profiling avancé CUDA 13.1
    • Nsight Systems et Nsight Compute
    • Analyse de la divergence de warps
    • Mesure de l’occupancy
    • Détection des goulots d’étranglement mémoire
  • Optimisations modernes GPU
    • Réduction parallèle
    • Loop unrolling
    • Streams multiples
    • Overlap transfert / calcul
    • Asynchronisme avancé CUDA 13.1
  • Pipeline entreprise GPU-ready
    • Data ingestion
    • Pré-processing GPU
    • Calcul intensif
    • Inférence et post-processing
    • Mesure end-to-end

Mises en pratique :

  • Profiling d’un kernel volontairement inefficace
  • Optimisation guidée en groupe
  • Construction d’un pipeline GPU complet
  • Mesure comparative CPU vs GPU sur workflow réel

Jour 4 — Scalabilité Multi-GPU avec NCCL pour industrialiser des applications IA et calcul intensif

  • Multi-GPU et scalabilité
    • Introduction à NCCL 2.28
    • Communications fusionnées
    • Topologies inter-GPU
    • Patterns IA distribuée
  • Tensor Cores nouvelle génération
    • FP8 sur Hopper
    • Optimisations Blackwell
    • CUDA Tile pour workloads IA
  • Industrialisation et bonnes pratiques production
    • Intégration continue et tests GPU
    • Monitoring performance
    • Gestion mémoire en environnement partagé
    • Stratégie APOD complète en entreprise

Mises en pratique :

  • Choix d’un cas concret : mini pipeline IA, simulation scientifique, moteur de pricing Monte Carlo ou traitement d’image
  • Analyse des performances CPU existantes et identification des goulots d’étranglement (Assess)
  • Portage progressif des parties critiques vers le GPU avec CUDA (Parallelize)
  • Optimisation mémoire, occupancy et Tensor Cores avec CUDA 13.1 et CUDA Tile (Optimize)
  • Intégration dans un pipeline complet et mesure end-to-end des performances (Deploy)
  • Présentation chiffrée des gains obtenus (speedup, latence, throughput)
  • Revue de code collective et échanges sur les bonnes pratiques production

Télécharger le programme

FAQ

Nos formations sont éligibles à plusieurs dispositifs de financement, selon votre situation. Human Coders est certifié Qualiopi, ce qui permet la prise en charge par des organismes comme Pôle emploi, votre OPCO ou encore le CPF (Compte Personnel de Formation) pour certaines formations.

Pour en savoir plus, veuillez consulter notre page : Comment financer votre formation ?

Oui, la formation peut être proposée en présentiel ou en distanciel. Pour les inter-entreprises, les modalités (présentiel ou à distance) sont fonction de la session.

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Les formations se déroulent toujours en petit groupe de 3 à 6 stagiaires. Nous souhaitons que les formateurs et formatrices puissent passer un maximum de temps avec chacun·e.

Voici une journée type :

  • 9h : vous êtes accueillis par votre formateur·rice autour d'un petit déjeuner (croissants, pains au chocolat, jus de fruit, thé ou café...)
  • 9h30 : la formation commence
  • 12h30 : pause de midi. Le·a formateur·rice mangera avec vous. C'est l'occasion d'avoir des discussions plus informelles.
  • 14h : reprise de la formation
  • 18h : fin de la journée

8 raisons de participer à une formation Human Coders

  • Satisfaction client élevée : Un taux de statisfaction de 4,6/5 depuis 2012 (sur 1806 sessions réalisées). 99% des participants se disent satisfaits de nos formations
  • Approche pédagogique unique : Des formations en petit groupe, des formateurs passionnés et expérimentés, de véritables workshops... (Plus d'infos sur notre manifeste)
  • Catalogue de formations complet : 218 formations au catalogue, de quoi vous accompagner sur tout vos projets
  • Écosystème dynamique : Nous accompagnons les dev depuis 14 ans avec des initiatives comme Human Coders News, les Human Talks, le podcast ou encore notre serveur Discord
  • Financement facilité : Organisme certifié Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • Références clients prestigieuses : De nombreux clients qui nous font confiance depuis des années
  • Accompagnement sur mesure : Nous vous proposons un accompagnement personnalisé par nos consultants pour vous aider dans vos projets au-delà de la formation
  • Valorisation professionnelle : Remise d'un diplôme, d'une attestation et d'une certification, suivant les formations effectuées, que vous pourrez afficher sur vos CV et réseaux sociaux

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012