Objectifs
- Appréhender la nature et la diversité des solutions apportées par la Data Science
- Découvrir et comprendre les modèles les plus utilisés en Data Science
- Être en mesure de développer une solution de Data Science, du traitement des données à l'application du modèle et à la visualisation des résultats
Public visé
Toute personne ayant des bases en développement, et voulant acquérir des bases en Data Science, par curiosité ou en vue de :
- pouvoir travailler avec des Data Scientists et mieux comprendre leur métier, leurs problématiques et leurs besoins (développeur, architecte)
- pouvoir accompagner un projet Data Science avec une certaines compréhension technique
- étendre sa boîte à outil (data miner, analyste, statisticien)
- envisager une reconversion professionnelle
Pré-requis
Des connaissances de bases en programmation. Quelques notions en probabilités et statistiques sont un plus.
Déroulé
> 1ère journée
Introduction au monde du Big Data et de la Data Science
- L'apport et les problématiques du Big Data dans les entreprises
- L'approche Machine Learning
- Les applications phares du Machine Learning en entreprise
Un premier exemple de modélisation : la détection de Spams
- introduction à la définition d'un problème de Machine Learning
- Acquisition du vocabulaire associé
Les différents types d'application du Machine Learning
- Classification vs régression
- Supervisé vs non-supervisé
- L'apprentissage par renforcement
Prise en main des outils
- Découverte des notebooks Jupyter
- Prise en main des données avec pandas
Mise en pratique sur un problème de classification
- Introduction à un exemple de problématique de classification
- Le modèle des k plus proches voisins
- L'arbre de décision
- Introduction aux notions de précision et de rappel
Mise en pratique sur un problème de régression
- Introduction à un exemple de problématique de classification
- Introduction au Machine Learning par la pratique 3
- La régression linéaire
- L'arbre de décision revisité
- Introduction au MAE et au RMSE
La validation des modèles : 1ère partie
- Principe de l'évaluation d'un modèle
- Introduction à la notion de paramètres et d'hyperparamètres
- L'optimisation des hyperparamètres sur un jeu de test : méthode du Grid Search
- Sous-apprentissage et sur-apprentissage
- Mise en pratique sur les problèmes explorés précédemment
Une approche non-supervisée : le clustering
- Principe du clustering
- Le clustering hierarchique
- La méthode du k-means
- Mise en pratique
> 2e journée
Nettoyage des données : 1ère partie
- Données numériques et données catégorielles
- Les valeurs manquantes
- 1ère stratégie : filtrage des données
- Mise en pratique
Exploration et visualisation des données
- Introduction à plotly
- Exploration des données
- Exploration des résultats des algorithmes
- Mise en pratique
La validation des modèles : 2e partie
- Le problème des petits jeux de données
- La validation croisée
- Mise en pratique
Le processus de création d'un modèle
- Les différentes étapes
- La notion de baseline et le principe itératif
- Mise en pratique
Les méthodes ensemblistes
- Le compromis biais-variance
- La méthode du bagging
- La méthode du boosting
- Mise en pratique
Le nettoyage des données : 2e partie
- L'interpolation des valeurs manquantes : les stratégies de bases
- L'interpolation des valeurs manquantes : stratégies à base de modélisation
- Mise en pratique
Le Feature Engineering
- Utilisation des variables catégorielles : les techniques d'encodage
- Création de nouvelles variables discriminantes
- Mise en pratique
Ouverture sur le Deep Learning
- Aperçu du fonctionnement des réseaux de neurones
- Les cas d'applications
- Avantages et inconvénients par rapports aux modèles classiques
> 3e journée
Rappels et approfondissement
- Résumé des points vus durant les deux premiers jours
- Approfondissement de certains points à la demande
Participation à une compétition
- Sélection d'une compétition en cours sur kaggle ou autre
- Participation par petits groupes
Formateur
Victor Landeau
Prix HT
1 950€
Date des prochaines sessions
22 au 24 mars 2021
21 au 23 juin 2021
27 au 29 septembre 2021
13 au 15 décembre 2021
Pour vous inscire ou en savoir plus sur cette formation, veuillez nous envoyer un message via le formulaire de contact.