SERVICES – FORMATION
Maîtriser les données massives

Aperçu des sujets
Introduction aux données massives (Big Data)
- Introduction aux concepts du Big Data, les problèmes et les défis.
- Les défis liés aux traitements des données massives.
Les Distributions Hadoop
- Vue d’ensemble des différentes distributions Hadoop du marché tels que Cloudera, Hortonsworks, MapR, etc
- Comment choisir une distribution Hadoop
Applications et outils adaptés pour le traitement des données:
Introduction aux concepts de stockage de données massives structurées et non structurées avec des travaux pratiques sur les outils les plus communs tels que:
- MapReduce
- Hive
- Flume
- Pig
- HDFS
- Spark et Spark SQL
- Nifi
- Kafka
- HBase
- …
Les Formats de stockage des données
Une présentation détallée des différents formats de fichiers largement utilisés dans le monde du Big Data tels que : Avro et Parquet et comment choisir le format adéquat au cas d’usage.
Introduction aux langages de programmation fonctionnels
Une présentation de la structure du langage Scala avec des exercices pratiques de programmation d’applications Spark.
Réalisation de Projets Complets End to End
Pour valider les connaissances acquises, les participants réaliseront à la fin de la formation un projet complet qui comprend :
- La collecte de données en temps réel depuis Twitter, Meetup etc..
- Analyse, filtrage, nettoyage et indexation des données collectées
- Création d’un tableau de bord temps réel pour affichage des données collectées.
Visualisation
Utilisation des connecteurs JDBC/ODBC pour extraire les données à partir d’un data lake Hadoop et les visualiser avec Tableau Software, MS PowerBI, MicroStrategy, MS Excel etc…