Passer au contenu principal

MTI850 Analytiques des données massives

Au terme de ce cours, l'étudiant ou l'étudiante sera mesure :

  • d'illustrer et expliquer la nature des systèmes d’analyse de données;
  • d'appliquer les connaissances en apprentissage machine requise pour concevoir tels systèmes;
  • d'utiliser les outils appropriés pour valider et évaluer la performance de tels systèmes, combiner narration, code et graphiques pour créer des documents analytiques convaincants;
  • d'aborder les problèmes de la science des données à grande échelle avec créativité et esprit d’initiative.

Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Il permettra de développer des connaissances en analyse de données massives et des compétences en programmation et en mathématiques. Il permettra d'utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.

Les sujets abordés incluent entre autres : introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des prin-cipaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDD), dataframes et data-sets. Apprentissage machine avec des données structurées, semi-structurées et non structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyperparamètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

Crédits 3
Cycle 2e
Responsable Département de génie logiciel et des TI