Introduction aux statistiques

IntroStat
Abstract

Résumé

Les statistiques sont une méthodologie permettant de faire des déductions sur une population à partir d'un échantillon fini. Elle est à la base de nombreux domaines de la science et de l'ingénierie, notamment la science des données, l'apprentissage automatique et l'intelligence artificielle. Ce cours enseigne les concepts statistiques fondamentaux d'une manière mathématiquement très rigoureuse mais autonome, en mettant l'accent sur ses liens avec d'autres domaines tels que l'inférence causale, la conception d'expériences, la théorie de l'information et l'apprentissage automatique.

Modalités pédagogiques Cours magistraux et devoirs maison.

Règles du cours : La présence en classe peut être prise en compte dans la note finale.

Bibliography
  • Livre : EFRON B., HASTIE T. Computer Age Statistical Inference: Algorithms, Evidence and Data Science. Cambridge University Press, 2016, 493p.  (The textbook is freely available at the authors’ website: https://web.stanford.edu/~hastie/CASI/index.html)

  • Livre : BERGER J. Statistical Decision Theory and Bayesian Analysis. Springer, 1985, 618p.

Requirements

Prérequis

Familiarité avec la notation de base de la théorie des ensembles, telle que l'inclusion, l'union, l'intersection, la négation, etc.

Description

Description

Le cours commence par la théorie des probabilités, définissant les variables aléatoires, les distributions de probabilité et d'autres concepts clés d'un point de vue de la théorie des mesures.

Il enseigne ensuite les bases de l'estimation statistique, en se concentrant sur l'exemple simple mais illustratif de l'estimation de la moyenne d'une population à partir d'un échantillon fini.  L'accent sera mis sur le biais et la variance d'un estimateur statistique et sur sa cohérence dans l'estimation de la vraie moyenne de la population pour des tailles d'échantillon croissantes. La façon dont ces concepts jouent un rôle clé dans des domaines tels que l'inférence causale et l'apprentissage automatique sera également expliquée.

Le cours présente ensuite les modèles paramétriques et l'estimation du maximum de vraisemblance (MLE). L'accent sera mis sur la compréhension des conditions permettant à l'EMV d'estimer de façon cohérente le « vrai paramètre » lorsque la taille de l'échantillon augmente et sur la compréhension de ce que l'on entend par « vrai paramètre ». Pour ce dernier point, on montrera que l'ELM est équivalente à la minimisation de la divergence de Kullback-Leibler entre la vraie distribution de probabilité et la distribution de probabilité du modèle. Cette équivalence permet de comprendre ce que fait l'ELM lorsque la vraie distribution n'est pas réalisable par le modèle paramétrique. Ces sujets aident à comprendre des modèles plus complexes en statistique et en apprentissage automatique. Enfin, le cours enseigne les tests d'hypothèses, à partir d'un exemple illustratif de l'expérience de Fisher sur la « dégustation du thé », où l'hypothèse à tester est que la capacité de dégustation d'une personne à distinguer les deux façons de verser du lait dans un thé : le thé d'abord ou le lait d'abord. Il sera démontré que la randomisation est la clé pour tester l'hypothèse. Des hypothèses similaires apparaissent dans divers contextes scientifiques et industriels, par exemple lorsqu'on étudie l'efficacité d'un nouveau traitement médical pour guérir une maladie, l'efficacité d'une nouvelle politique publicitaire pour augmenter les revenus, etc. Le cours explique des concepts clés tels que les hypothèses nulle et alternative, les niveaux de signification, les valeurs p, les régions critiques, les erreurs de type 1 et de type 2 et la puissance du test.

Objectifs d'apprentissage : 

Comprendre

  • la définition mathématique de la probabilité ;
  • les concepts clés de l'estimation statistique, tels que la cohérence, le biais et la variance ;
  • l'estimation du maximum de vraisemblance, les modèles paramétriques dans le cadre d'une bonne spécification et d'une mauvaise spécification du modèle, le lien avec la divergence de Kullback-Leibler ;
  • procédure de test d'hypothèse, signification des valeurs p et du niveau de signification, expériences aléatoires.

Nb heures : 21 heures

Evaluation : 

  • Devoirs maisons (25% de la note finale)
  • Examen final (75% de la note finale)