Ecole d'ingénieur et centre de recherche en Sciences du numérique
 

Fondements de l'inférence statistique

[STATS]
T Enseignement Technique


Résumé

La statistique est le fondement de nombreux domaines de la science et de l'ingénierie qui impliquent des `` données ''. Ce cours se concentre sur les concepts fondamentaux de l'inférence statistique qui sont nécessaires pour appliquer les méthodes statistiques dans la pratique et qui constituent la base d'autres domaines tels que l'apprentissage automatique.

Enseignement et méthodes d’apprentissage : Les étudiants apprennent par des conférences, des exercices et des expériences informatiques.

Règles du cours : L'utilisation valide des méthodes statistiques nécessite une compréhension mathématique du mécanisme sous-jacent. En tant que tel, le cours couvre à la fois les aspects mathématiques et algorithmiques des statistiques.

Bibliographie

  1. B. Efron and T. Hastie, “Computer Age Statistical Inference: Algorithms, Evidence and Data Science”, Cambridge University Press, 2016.  The textbook is freely available at the authors’ website: https://web.stanford.edu/~hastie/CASI/index.html
  2. J. O. Berger, ``Statistical Decision Theory and Bayesian Analysis’’, Springer, 1985.

Préalable Requis

Le langage des statistiques est la théorie des probabilités. En tant que tel, le cours nécessite une connaissance de base des probabilités dans les résultats discrets finis, celle du calcul (comme la différenciation et l'intégration), et celle de l'algèbre linéaire (comme les vecteurs propres et les valeurs propres d'une matrice, et la solution d'équations linéaires).

Description

Le cours se concentre sur les concepts fondamentaux de la statistique, en utilisant les exemples les plus simples tels que l'estimation de la moyenne à partir d'un échantillon fini et la régression linéaire. Il couvre à la fois les approches fréquentistes et bayésiennes. Le premier comprend des tests d'hypothèses statistiques et une estimation du maximum de vraisemblance. Cette dernière inclut la notion de distributions postérieures antérieures et la règle de Bayes. J'expliquerai en quoi ces deux approches diffèrent dans l'interprétation des `` données '' et du `` modèle '', et dans la définition des décisions `` optimales ''. J'enseignerai également les méthodes de Monte Carlo, un ingrédient clé des deux approches.

Résultats d’apprentissage : Les élèves apprendront les notions fondamentales de la statistique et le mode de pensée statistique. Ceux-ci comprennent: 1) Les conclusions et les décisions qui peuvent être prises à partir des données dépendent fortement de la façon dont les données sont obtenues. Les concepts clés à cet égard sont le biais de sélection et la cohérence. 2) Il existe différents compromis dans les méthodes statistiques, notamment entre i) biais, ii) variance et iii) calcul. Cette connaissance est nécessaire dans la pratique, car elle est nécessaire pour la sélection d'une méthode et d'un modèle, et le réglage d'hyper-paramètre. Les concepts clés ici incluent l'erreur de généralisation, la validation croisée, la régularisation et la malédiction de la dimensionnalité

Nb heures : 21 heures

Nb heures par semaine : 1,5 heures

Evaluation: Examen et rapport.