Au terme de ce cours, l'étudiant sera mesure :
Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Ce cours vous permettra développer vos connaissances en analyse de données massives et améliorerez vos compétences en programmation et en mathématiques. Vous apprendrez à utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.
Les sujets abordés incluent entre autres : introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des prin-cipaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDD), dataframes et data-sets. Apprentissage machine avec des données structurées, semi-structurées et non structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyperparamètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.
Groupe | Jour | Type |
---|---|---|
01 | Mercredi 13:30 | Activité de cours |