SERVICES – FORMATION

Maîtriser les données massives

Avec la capture et l’analyse toujours plus rapide des données, la recherche de professionnels capables d’exécuter des solutions « Big Data » ne cesse de grossir. En effet, l’exploitation efficace des données confère aux entreprises un avantage concurrentiel considérable au niveau stratégique. Aussi, au cours des prochaines années, il y a lieu de croire que les possibilités de carrière pour les analystes de données massives vont nettement augmenter.

Le cheminement d’Analyste de « mégadonnées » fournit les outils et les compétences pour recueillir, administrer, analyser et interpréter toutes données. Comme les mégadonnées appartiennent à un domaine relativement nouveau, il incombe aux étudiants d’affiner les compétences techniques acquises afin de garder une longueur d’avance sur les tendances et technologies les plus récentes. Ne jamais oublier qu’il s’agit d’une carrière où l’on ne peut se permettre le moindre retard!

Mes cours permettent aux participants d’acquérir des connaissances en gestion et traitement des données massives (Big Data) ainsi que l’acquisition de compétences pour l’utilisation d’outils adaptés permettant d’exécuter des solutions big data de l’écosystème Hadoop et/ou Spark.

(Liste non exhaustive)

Aperçu des sujets

Introduction aux données massives (Big Data)

Introduction aux concepts du Big Data, les problèmes et les défis.
Les défis liés aux traitements des données massives.

Les Distributions Hadoop

Vue d’ensemble des différentes distributions Hadoop du marché tels que Cloudera, Hortonsworks, MapR, etc
Comment choisir une distribution Hadoop

Applications et outils adaptés pour le traitement des données:

Introduction aux concepts de stockage de données massives structurées et non structurées avec des travaux pratiques sur les outils les plus communs tels que:

MapReduce
Hive
Flume
Pig
HDFS
Spark et Spark SQL
Nifi
Kafka
HBase
…

Les Formats de stockage des données

Une présentation détallée des différents formats de fichiers largement utilisés dans le monde du Big Data tels que : Avro et Parquet et comment choisir le format adéquat au cas d’usage.

Introduction aux langages de programmation fonctionnels

Une présentation de la structure du langage Scala avec des exercices pratiques de programmation d’applications Spark.

Réalisation de Projets Complets End to End

Pour valider les connaissances acquises, les participants réaliseront à la fin de la formation un projet complet qui comprend :

La collecte de données en temps réel depuis Twitter, Meetup etc..
Analyse, filtrage, nettoyage et indexation des données collectées
Création d’un tableau de bord temps réel pour affichage des données collectées.

Visualisation

Utilisation des connecteurs JDBC/ODBC pour extraire les données à partir d’un data lake Hadoop et les visualiser avec Tableau Software, MS PowerBI, MicroStrategy, MS Excel etc…