Nouveau

Exploitation des données et modèles d'apprentissage en Data Science

Code Formation: 5289

| Ajouter aux favoris

Objectifs pédagogiques

L’objectif de la formation est de permettre aux participants de :

  • Interagir avec les spécialistes dans un cadre professionnel
  • Mettre en oeuvre la chaîne complète d’un projet Data
  • Identifier les grandes familles de méthodes d’utilisation des données
  • Concevoir et organiser l’exploitation des données
  • Concevoir et appliquer les méthodes de validation des modèles d’apprentissage
  • Interagir avec les données (nettoyage, prévisualisation ...)
  • Justifier les résultats d’un projet de sciences de données dans un cadre opérationnel

Public

  • Tous collaborateurs en charge de mettre en oeuvre un projet de Data Science

Prérequis

  • Notions en Data Science
  • Connaissances en statistique et/ou en programmation
PARTIE 1 - PREPARATION ET VISUALISATION DES DONNEES 
  • Accéder aux données 
  • Importer des données 
  • Comprendre l’importance du processus de nettoyage des données
  • Identifier les caractéristiques d’un ensemble de données 
  • Nettoyer et préparer des ensembles de données 
  • Prétraiter des données (normalisation, discrétion) 
  • Les principes de la visualisation de données 
  • Réduction de la dimension, analyse en composantes principales (ACP) 

Modalités pédagogiques : 50 % de Travaux Pratiques sur Plateforme Data Science basée sur des notebooks Scikit-Learn et Python 

 

PARTIE 2 – LES MODELES D’APPRENTISSAGE FONDAMENTAUX 
  • Modéliser un problème de Data Science
  • Ajuster et valider un modèle
  • La Machine Learning et les capacités d’apprentissage des machines
  • Les différentes familles d’algorithme 
  • Apprentissage supervisé 
  • Construire un modèle de régression linéaire 
  • Les coefficients de régression
  • k-NN
  • Arbres de décision
  • Validation d’un modèle prédictif 
  • Apprentissage non supervisé
  • Partitionnement en k-means
  • Regroupement hiérarchique (clustering) 
  • Règles d’association
  • Détections d’anomalies 

Modalités pédagogiques : 50 % de Travaux Pratiques sur Plateforme Data Science basée sur des notebooks Scikit-Learn et Python 

 
PARTIE 3 – LES MODELES PREDICTIFS AVANCES 
  • Régression non linéaire, régression logistique 
  • Random forests 
  • Machines à vecteurs de support (SVM)
  • Validation d’un modèle prédictif : validation croisée

Modalités pédagogiques : 50 % de Travaux Pratiques sur Plateforme Data Science basée sur des notebooks Scikit-Learn et Python 

La démarche pédagogique proposée s’appuiera sur l’alternance d’apports théoriques, d’échanges techniques et d’illustrations autour de cas pédagogiques existants. En complément, elle intégrera de nombreuses mises en situation et de travaux pratiques
Fiche d'évaluation en fin de formation