Contact

Introduction au Machine Learning par la pratique

 

Objectifs

  • Appréhender la nature et la diversité des solutions apportées par la Data Science
  • Découvrir et comprendre les modèles les plus utilisés en Data Science
  • Être en mesure de développer une solution de Data Science, du traitement des données à l'application du modèle et à la visualisation des résultats

Public visé

Toute personne ayant des bases en développement, et voulant acquérir des bases en Data Science, par curiosité ou en vue de :

  • pouvoir travailler avec des Data Scientists et mieux comprendre leur métier, leurs problématiques et leurs besoins (développeur, architecte)
  • pouvoir accompagner un projet Data Science avec une certaines compréhension technique
  • étendre sa boîte à outil (data miner, analyste, statisticien)
  • envisager une reconversion professionnelle

Pré-requis

Des connaissances de bases en programmation. Quelques notions en probabilités et statistiques sont un plus.

 

Déroulé

> 1ère journée

Introduction au monde du Big Data et de la Data Science

  • L'apport et les problématiques du Big Data dans les entreprises
  • L'approche Machine Learning
  • Les applications phares du Machine Learning en entreprise

Un premier exemple de modélisation : la détection de Spams

  • introduction à la définition d'un problème de Machine Learning
  • Acquisition du vocabulaire associé

Les différents types d'application du Machine Learning

  • Classification vs régression
  • Supervisé vs non-supervisé
  • L'apprentissage par renforcement

Prise en main des outils

  • Découverte des notebooks Jupyter
  • Prise en main des données avec pandas

Mise en pratique sur un problème de classification

  • Introduction à un exemple de problématique de classification
  • Le modèle des k plus proches voisins
  • L'arbre de décision
  • Introduction aux notions de précision et de rappel

Mise en pratique sur un problème de régression

  • Introduction à un exemple de problématique de classification
  • Introduction au Machine Learning par la pratique 3
  • La régression linéaire
  • L'arbre de décision revisité
  • Introduction au MAE et au RMSE

La validation des modèles : 1ère partie

  • Principe de l'évaluation d'un modèle
  • Introduction à la notion de paramètres et d'hyperparamètres
  • L'optimisation des hyperparamètres sur un jeu de test : méthode du Grid Search
  • Sous-apprentissage et sur-apprentissage
  • Mise en pratique sur les problèmes explorés précédemment

Une approche non-supervisée : le clustering

  • Principe du clustering
  • Le clustering hierarchique
  • La méthode du k-means
  • Mise en pratique

 

> 2e journée

Nettoyage des données : 1ère partie

  • Données numériques et données catégorielles
  • Les valeurs manquantes
  • 1ère stratégie : filtrage des données
  • Mise en pratique

Exploration et visualisation des données

  • Introduction à plotly
  • Exploration des données
  • Exploration des résultats des algorithmes
  • Mise en pratique

La validation des modèles : 2e partie

  • Le problème des petits jeux de données
  • La validation croisée
  • Mise en pratique

Le processus de création d'un modèle

  • Les différentes étapes
  • La notion de baseline et le principe itératif
  • Mise en pratique

Les méthodes ensemblistes

  • Le compromis biais-variance
  • La méthode du bagging
  • La méthode du boosting
  • Mise en pratique

Le nettoyage des données : 2e partie

  • L'interpolation des valeurs manquantes : les stratégies de bases
  • L'interpolation des valeurs manquantes : stratégies à base de modélisation
  • Mise en pratique

Le Feature Engineering

  • Utilisation des variables catégorielles : les techniques d'encodage
  • Création de nouvelles variables discriminantes
  • Mise en pratique

Ouverture sur le Deep Learning

  • Aperçu du fonctionnement des réseaux de neurones
  • Les cas d'applications
  • Avantages et inconvénients par rapports aux modèles classiques

 

> 3e journée

Rappels et approfondissement

  • Résumé des points vus durant les deux premiers jours
  • Approfondissement de certains points à la demande

Participation à une compétition

  • Sélection d'une compétition en cours sur kaggle ou autre
  • Participation par petits groupes

 

Formateur
Victor Landeau

Prix HT
1 950€

Date des prochaines sessions
22 au 24 mars 2021
21 au 23 juin 2021
27 au 29 septembre 2021
13 au 15 décembre 2021

Pour vous inscire ou en savoir plus sur cette formation, veuillez nous envoyer un message via le formulaire de contact.