Canadian National

Architecte Solutions / Enterprise Big Data

La Canadian National Railway, Société nationale des chemins de fer du Canada (connue sous CN) dont le siège social est situé à Montréal, au Québec, dessert le Canada et le Midwest et le sud des États-Unis.

La CN a le projet de création d’un centre de données (Data Hub) afin de centraliser les données pour de nombreuses applications métiers et commerciales. Une ébauche d’architecture de ce data hub avait déjà été préparée par une société externe.

Dans ce contexte, il m’a été demandé de compléter le projet d’architecture et de définir le niveau d’accès de sécurité à ce hub de données.

La plateforme est basée sur la distribution Cloudera avec Nifi, Kafka, Hadoop, Spark, Spark Streaming, Hive, MongoDB et PostgreDB.

J’étais en charge de la:

  • Conception de l’architecture cible d’une plateforme de centralisation des données. Cette plateforme est basée sur la distribution Cloudera avec Nifi, Kafka, Hadoop, Spark, Spark Streaming, Hive, MongoDB, PostgreDB.
  • Définition et conception de la stratégie de sécurité, contrôle d’accès basé sur les rôles et les balises (Apache Atlas, Ranger, Knox et Kerberos)
  • Conception d’une stratégie et d’une feuille de route pour sécuriser le cluster Kafka.
  • Agir en tant que conseiller technologique Big Data
  • Implémentation d’un POC sur AWS pour valider la stratégie de sécurité
La Méthodologie

Une plateforme de développement était déjà en place. Mon travail consistait à concevoir l’architecture cible pour l’environnement de production.

Dans ce contexte j’ai défini plusieurs étapes tels que le stockage et l’ingestion. Ces étapes liées aux besoins et aux priorités de l’entreprise.

La dernière étape définissait l’architecture cible ainsi que la stratégie de sécurité d’accès à la plateforme.

Détails Clés

Rôle: Architecte Entreprise / Solutions Big Data

Date du Projet : 2019

Durée du Projet : 6 mois

Localisation : Montréal – Canada

Technologies: MS Azure, Cloudera (Horonworks), Spark (Scala), Kafka, Nifi, PostgreSQL, Atlas,  Ranger, Hadoop, Hive

Etapes Clés

Définir la stratégie de la sécurité d'accès

Définition de la stratégie d’accès aux données. Utilisation de Atals et Ranger pour définir les accès (Role Based Access Control) et (Tag Based Acces Control)

Mise en place d’une POC sur Amazon Web Services pour valider les concepts et la stratégie de sécurisation.

Préparation de l'environnement sur MS Azure

Définition de l’architecture de la plateforme de données.

Ingestion des flux de données avec Nifi et Kafka

Analyse avec Spark

Stockage dans PostgreSQL

Initiation de la POC

Revue de l’environnement basé sur Cloudera valider les besoins métiers