Les bases de l'apprentissage par renforcement

ReLearn

Abstract

L'apprentissage par renforcement (RL) s'est récemment imposé comme une technique puissante d'apprentissage automatique moderne, permettant à un système d'apprendre par le biais d'un processus d'essais et d'erreurs utilisant le retour d'information. Il a été appliqué avec succès dans de nombreux cas d'utilisation, y compris des systèmes tels que AlphaZero, qui ont appris à maîtriser les jeux d'échecs, de Go et de Shogi.

L'objectif de ce cours est d'introduire les étudiants aux concepts de base de la RL tels que les processus de décision de Markov, la programmation dynamique, les méthodes sans modèle, les méthodes d'approximation via la fonction de valeur et l'évaluation de la politique, ainsi que de nombreux autres outils utiles. Il s'agit d'un cours théorique, mais nous fournirons des exemples d'applications du monde réel pour démontrer l'utilité du RL.

Modalités Pédagogiques

Cours magistraux, devoirs, exercices. Chaque cours commence par un résumé des concepts clés du cours précédent. Une partie de chaque cours est souvent consacrée à des exemples illustratifs et à des exercices.

Règles du cours

La présence aux conférences et aux séances d'exercices n'est pas obligatoire, mais elle est fortement recommandée.

Bibliography

[1] M. Puterman, “Markov decision processes: discrete stochastic dynamic programming”, John Wiley & Sons, 2014

[2] Richard S. Sutton and Andrew G. Barto, "Reinforcement learning: An introduction", Second Edition, MIT Press, 2019

[3] D. P. Bertsekas, ``Reinforcement Learning and Optimal Control”, Athena Scientific, 2019

Requirements

Connaissances de base en algèbre linéaire, analyse matricielle, calcul, théorie des probabilités et processus aléatoires, ainsi que capacité de programmation. Cours préalable utile à EURECOM (pour ceux qui n'ont pas suivi de classes préparatoires) : MathEng

Description

Tout au long de ce cours, nous aborderons les outils de base qui sont largement utilisés dansle domaine du droit de la concurrence, tant en théorie qu'en pratique :

Processus de decision de Markov
Programmation dynamique
Prediction sans modèle
Contrôle sans modèle
Approximation de la fonction de valeur
Méthode Policy-gradient
Intégration de l'apprentissage et de la planification
Exploration et exploitation

Si le temps le permet, nous aborderons également quelques études de cas connues de la LR dans les jeux.

Objectifs d’apprentissage

À l'issue de ce cours, les étudiants pourront :

Acquérir des connaissances de base sur les techniques de RL
Identifier et résoudre un problème à l'aide des techniques de RL lorsqu'elles sont appliquées
Formuler des problèmes de décision
Mettre en place et réaliser des expériences informatiques

Nombre d'heure : 21 heures

Evaluation

Devoirs (30% de la note finale), Examen final (70% de la note finale)

Crédits supplémentaires* : Projet de cours facultatif (30%)

*Ce projet n'est pas obligatoire mais il peut augmenter votre note de manière significative.