Nouveau

Data Mining : valorisation de données par la découverte de connaissances cachées

Code Formation: 5265

| Ajouter aux favoris

Objectifs pédagogiques

  • Appréhender les enjeux méthodologiques, technologiques et économiques liés à la valorisation des données
  • Saisir le panorama des concepts, méthodes, outils et langages d’extraction de connaissances dans de grands volumes de données
  • Sensibiliser les participants aux problèmes variés que pose l’extraction de connaissances (descriptives ou prédictives) dans les gros volumes de données
  • Savoir produire de la valeur ajoutée à partir de ses propres données
  • Expérimenter l'ensemble de ces enjeux à travers des exemples concrets et pratiques

Public

  • Développeurs, concepteurs, architectes, data scientists et analystes, décideurs

Prérequis

  • Aucun

Découverte de connaissances et fouille de données

  • Introduction à la découverte de connaissances dans de grands volumes de données et à la fouille de données
  • Processus de découverte de connaissances (Knowledge Discovery)
  • Aperçu des différentes tâches de fouille de données et des problèmes actuels
  • Présentation du programme de la semaine

 

Clustering

  • Fondements (distances, similarités, dimensionnalité, normalisation)
  • Clustering par partitionnement (Kmeans)
  • Clustering hiérarchique
  • Clustering basée sur la densité (DBScan)
  • Autres méthodes (détection de communautés dans un graphe)

 

Fouille de motifs

  • Fondements de la découverte de motifs et de règles d'association
  • Découverte de motifs à partir de données plus complexes (séquences, graphes)
  • Algorithmes : recherche exhaustive vs heuristique, temps réel, interactifs, etc

 

Méthodes supervisées

  • Principes fondamentaux de la classification
  • Méthodes principales (arbres de décision, forêts aléatoires, SVM,...)
  • Méthodes de régression (cible numérique)
  • Evaluation de modèles

 

 

Détection d’anomalies

  • Qu’est-ce qu’une anomalie ?
  • Anomalies et motifs : Introduction à la découverte de modèles exceptionnels
  • Anomalies et clustering : outliers

 

 

Travaux Pratiques de Data Mining

  • Présentation de la plateforme KNIME et des bibliothèques Python (selon niveau)
  • Prétraitements de données classiques
  • Exploration et visualisation de données
  • Exploration d’une collection de média sociaux géolocalisés (analyse d’une collection de photos publiées sur Flickr dans une grande ville, p.e. Lyon)
  • Application des algorithmes de clustering
  • Détection automatique de points d’intérêts et d'événements dans le temps et/ou l’espace à partir de données sociales
  • Application d’algorithmes de fouille de motifs et de règles d’association.
  • Caractérisation de points d’intérêt, d'événements et de zones urbaines à partir de données sociales : découverte automatique de motifs composés de métadonnées du post (mots-clefs, auteurs,...) et de caractéristiques extraites à partir des images
  • Applications de différents classifieurs et paramétrisation
  • Identification de joueurs d’un jeu vidéos à partir de leur utilisation du clavier (prédire le joueur en fonction d’une trace de jeu de StarCraft 2)
  • Détection d’anomalies dans les jeux de données traitées dans la semaine

 

Alternance de cours théoriques et de travaux pratiques
Évaluation des acquis de la formation
Evaluation des acquis des apprenants par auto-examen
Évaluation de la formation
Evaluation du ressenti des participants en fin de formation (Niveau 1 KIRKPATRICK)