SERVICES – FORMATION

Maîtriser les données massives

(Liste non exhaustive)

Aperçu des sujets

Introduction aux données massives (Big Data)

  • Introduction aux concepts du Big Data, les problèmes et les défis.
  • Les défis liés aux traitements des données massives.

Les Distributions Hadoop

  • Vue d’ensemble des différentes distributions Hadoop du marché tels que Cloudera, Hortonsworks, MapR, etc
  • Comment choisir une distribution Hadoop

Applications et outils adaptés pour le traitement des données:

Introduction aux concepts de stockage de données massives structurées et non structurées avec des travaux pratiques sur les outils les plus communs tels que:

  • MapReduce
  • Hive
  • Flume
  • Pig
  • HDFS
  • Spark et Spark SQL
  • Nifi
  • Kafka
  • HBase

Les Formats de stockage des données

Une présentation détallée des différents formats de fichiers largement utilisés dans le monde du Big Data tels que : Avro et Parquet et comment choisir le format adéquat au cas d’usage.

Introduction aux langages de programmation fonctionnels

Une présentation de la structure du langage Scala avec des exercices pratiques de programmation d’applications Spark.

Réalisation de Projets Complets End to End

Pour valider les connaissances acquises, les participants  réaliseront à la fin de la formation un projet complet qui comprend :

  • La collecte de données en temps réel depuis Twitter, Meetup etc..
  • Analyse, filtrage, nettoyage et indexation des données collectées
  • Création d’un tableau de bord temps réel pour affichage des données collectées.

Visualisation

Utilisation des connecteurs JDBC/ODBC  pour extraire les données à partir d’un data lake Hadoop et les visualiser avec Tableau Software, MS PowerBI, MicroStrategy, MS Excel etc…