Résumé
L'apprentissage profond est une branche de l'apprentissage automatique qui permet de construire des modèles qui ont montré des performances supérieures pour un large éventail d'applications, en particulier la vision par ordinateur et le traitement du langage naturel. Grâce à la disponibilité conjointe de grandes quantités de données et d'une puissance de traitement abordable, l'apprentissage profond a gagné en popularité non seulement dans le monde universitaire, mais aussi dans l'industrie. En outre, la disponibilité de nombreuses bibliothèques logicielles pour mettre en œuvre, former et utiliser des modèles d'apprentissage profond a considérablement accéléré l'adoption d'une telle approche de modélisation dans une variété de domaines d'application.
L'objectif de ce cours est de fournir une introduction détaillée aux principales techniques de modélisation statistique utilisées dans le Deep Learning, aux aspects fondamentaux de l'optimisation stochastique, à une interprétation géométrique des paysages de pertes, et à la modélisation séquentielle des données, y compris les réseaux de neurones récurrents profonds, les architectures à base de mémoire, jusqu'aux dernières tendances du Deep Learning telles que les mécanismes d'attention et les architectures Transformer. Enfin, le cours fournit également une solide introduction à la modélisation basée sur l'énergie, aux méthodes d'échantillonnage et à leurs liens avec les équations différentielles stochastiques utilisées dans les modèles génératifs profonds.
En fin de compte, l'objectif du cours est d'aider les étudiants à développer une pensée critique liée à l'apprentissage profond, à la fois pour être en mesure de comprendre et d'appliquer correctement tout nouveau développement proposé par la communauté scientifique, et pour être en mesure d'utiliser un grain de sel lors de la définition de l'approche de modélisation à utiliser dans des scénarios d'application pratique.
Le cours est organisé autour de conférences classiques et frontales où la théorie est exposée et discutée. En outre, des tutoriels en ligne servent d'exercices pratiques, où les étudiants peuvent expérimenter pour acquérir une compréhension plus profonde des concepts théoriques discutés en classe.
Modalités pédagogiques : Le cours est composé d'une combinaison de conférences et de tutoriels en ligne.
Règles du cours : La présence à tous les cours est obligatoire.
- Livre : GOODFELLOW I., BENGIO Y., COURVILLE A. Deep Learning. MIT Press, 2016, 800p.
- Livre : BISHOP M. C., BISHOP H., Deep learning, Springer, 2024
- Connaissance et familiarité avec la théorie des probabilités et l'algèbre linéaire.
- Connaissance du langage de programmation python.
Description
Le cours a pour but d'exposer les étudiants aux principes fondamentaux et aux développements récents de l'apprentissage profond. Le contenu s'articule autour des cours suivants :
- Réseaux neuronaux profonds : ces deux cours couvrent les bases des réseaux neuronaux profonds, leur description mathématique et leur interprétation, la définition des différentes couches (y compris les couches de normalisation), le besoin de régularisation et les différentes techniques pour traiter l'overfitting, les concepts de graphes de calcul et de différenciation automatique, les algorithmes d'optimisation stochastique, leurs propriétés et leurs variantes, et des sujets avancés tels que la compression des modèles profonds. En outre, ces conférences présentent le domaine de l'apprentissage profond pour la vision par ordinateur, les architectures populaires avec une explication mathématique de leurs principes, et plusieurs exemples d'applications, y compris la détection d'objets et la segmentation d'images.
- Modélisation de séquences : ces deux conférences se concentrent sur la modélisation de données séquentielles, avec un accent particulier sur le langage naturel. La conception traditionnelle des réseaux neuronaux récurrents est expliquée en détail et avec une rigueur mathématique, et elle est élargie pour couvrir les architectures basées sur la mémoire telles que les LSTM, les mécanismes d'attention et les réseaux Transformer. Les exemples les plus marquants de modèles de langage, tels que BERT et GPT, sont également abordés.
- Modélisation basée sur l'énergie : cet exposé présente l'idée d'utiliser une fonction paramétrique de substitution pour modéliser les densités de données, de sorte que l'estimation de la densité et la modélisation générative peuvent être réduites à un problème de régression. Il s'agit d'un sujet avancé qui nécessite l'introduction de techniques d'échantillonnage statistique et la simulation de versions discrètes d'équations différentielles stochastiques continues. Ces outils sont ensuite utilisés pour définir des modèles avancés qui utilisent le score de la distribution des données pour apprendre leurs représentations latentes. Ainsi, les applications permises par la théorie et discutées dans la conférence vont de l'estimation de la densité pour la détection d'anomalies à la génération synthétique de données réalistes, y compris des images et d'autres modalités.
Objectifs d'apprentissage :
-
Comprendre les principes fondamentaux associés à l'apprentissage profond et aux architectures de réseaux profonds pour l'apprentissage automatique.
-
Comprendre les nouvelles architectures de Deep Learning proposées dans la littérature scientifique
-
Développer un esprit critique face aux choix de modélisation
-
Être capable de définir, d'entraîner et d'utiliser des modèles de Deep Learning
Evaluation :
- Quiz pendant le cours, examen écrit à la fin du semestre..