MTI881-A26 - Apprentissage par renforcement
L’objectif de ce cours vise à fournir aux étudiant.e.s une compréhension approfondie des principes, algorithmes et applications de l’apprentissage par renforcement (RL). Les étudiant.e.s apprendront comment des agents peuvent acquérir des comportements optimaux en interagissant avec leur environnement, et comment le RL s’inscrit dans le cadre plus large de l’intelligence artificielle et de l’apprentissage automatique.
Au terme de ce cours, les étudiant.e.s seront en mesure de : comprendre les fondements théoriques du RL en tant que cadre pour la prise de décision séquentielle en situation d’incertitude; concevoir, implémenter et analyser des algorithmes de RL pour une variété d’environnements; acquérir une solide intuition des compromis entre exploration et exploitation, l'apprentissage avec ou sans modèle, et des méthodes basées sur la valeur ou sur la politique; appliquer les concepts du RL à des problèmes réels dans des domaines tels que la robotique, les jeux et les systèmes de recommandation; évaluer de manière critique les tendances actuelles de la recherche et comprendre les défis liés à la mise à l’échelle du RL à des environnements complexes et de grande dimension. >br>
Liste de sujets couverts :Introduction au RL et historique, gradients de politique, algorithmes acteur-critique, méthodes basées sur les fonctions de valeur, RL profond avec les fonctions Q, gradients de politique avancés, contrôle optimal et planification, RL et apprentissage de politique à base de modèles explicites, exploration et exploitation; RL hors-ligne, bases théoriques du RL, inférence variationnelle et modèles génératifs, RL inverse, RL avec modèles séquentiels, Défis et problèmes ouverts.