Nouveau

Data Mining : valorisation de données par la découverte de connaissances cachées

Code Formation: 5265

| Ajouter aux favoris

Objectifs pédagogiques

  • Appréhender les enjeux méthodologiques, technologiques et économiques liés à la valorisation des données
  • Saisir le panorama des concepts, méthodes, outils et langages d’extraction de connaissances dans de grands volumes de données
  • Sensibiliser les participants aux problèmes variés que pose l’extraction de connaissances (descriptives ou prédictives) dans les gros volumes de données
  • Savoir produire de la valeur ajoutée à partir de ses propres données
  • Expérimenter l'ensemble de ces enjeux à travers des exemples concrets et pratiques

Public

  • Développeurs, concepteurs, architectes, data scientists et analystes, décideurs

Prérequis

  • Aucun

Découverte de connaissances et fouille de données

  • Introduction à la découverte de connaissances dans de grands volumes de données et à la fouille de données
  • Processus de découverte de connaissances (Knowledge Discovery)
  • Aperçu des différentes tâches de fouille de données et des problèmes actuels
  • Présentation du programme de la semaine

 

Clustering

  • Fondements (distances, similarités, dimensionnalité, normalisation)
  • Clustering par partitionnement (Kmeans)
  • Clustering hiérarchique
  • Clustering basée sur la densité (DBScan)
  • Autres méthodes (détection de communautés dans un graphe)

 

Fouille de motifs

  • Fondements de la découverte de motifs et de règles d'association
  • Découverte de motifs à partir de données plus complexes (séquences, graphes)
  • Algorithmes : recherche exhaustive vs heuristique, temps réel, interactifs, etc

 

Méthodes supervisées

  • Principes fondamentaux de la classification
  • Méthodes principales (arbres de décision, forêts aléatoires, SVM,...)
  • Méthodes de régression (cible numérique)
  • Evaluation de modèles

 

 

Détection d’anomalies

  • Qu’est-ce qu’une anomalie ?
  • Anomalies et motifs : Introduction à la découverte de modèles exceptionnels
  • Anomalies et clustering : outliers

 

 

Travaux Pratiques de Data Mining

  • Présentation de la plateforme KNIME et des bibliothèques Python (selon niveau)
  • Prétraitements de données classiques
  • Exploration et visualisation de données
  • Exploration d’une collection de média sociaux géolocalisés (analyse d’une collection de photos publiées sur Flickr dans une grande ville, p.e. Lyon)
  • Application des algorithmes de clustering
  • Détection automatique de points d’intérêts et d'événements dans le temps et/ou l’espace à partir de données sociales
  • Application d’algorithmes de fouille de motifs et de règles d’association.
  • Caractérisation de points d’intérêt, d'événements et de zones urbaines à partir de données sociales : découverte automatique de motifs composés de métadonnées du post (mots-clefs, auteurs,...) et de caractéristiques extraites à partir des images
  • Applications de différents classifieurs et paramétrisation
  • Identification de joueurs d’un jeu vidéos à partir de leur utilisation du clavier (prédire le joueur en fonction d’une trace de jeu de StarCraft 2)
  • Détection d’anomalies dans les jeux de données traitées dans la semaine

 

Alternance de cours théoriques et de travaux pratiques
Fiche d'évaluation en fin de session de formation