Formation Apache Spark and Hadoop Developer using Scala Cloudera/Hortonworks

Les objectifs

Dans cette formation vous allez apprendre :

  • La programmation parallèle avec Scala sur Spark et Hadoop.

  • Identifier et définir les différents composants de l’écosystème Hadoop

  • Appréhender le fonctionnement de Spark

  • Développer des applications avec Apache Spark

  • Optimiser une application Spark

  • Utiliser Spark SQL et les dataframes

  • Faire de l’analyse en temps réel avec Spark streaming

  • Découvrir MLLib pour du machine learning sur Spark

  • Explorer, manipuler et visualiser vos données avec Zeppelin

 Public

  • Développeurs, Data Scientists, Architectes, Chefs de projet, Ingénieurs d’études.

Pré-requis

  • Des connaissances de base en programmationavec Scala.

  • Etre familier avec la Programmation orientée objet

  • Connaissances en SQL et en conception d'application temps réel. 

Contenu : Programme

Jour 1

Introduction à Hadoop, Hortonworks/Cloudera et au Big Data

  • Cas d’usage pour Hadoop

  • Qu’est-ce que le Big Data ?

  • HDP/CDH, Hortonworks/ Cloudera et l’écosystème Hadoop

  • Pourquoi utiliser Hortonworks/ Cloudera?

Introduction à Apache Spark

  • Qu’est-ce que Spark et d’où vient-il ?

  • Pourquoi utiliser Spark ?

  • Spark vs MapReduce

  • L’évolution rapide de Spark et l’engagement d’Hortonworks/Cloudera

Programmer avec Apache Spark

  • Les composants de Spark

  • Premiers pas avec Spark

  • Les RDD

  • Transformations et actions

  • Spark Hello World (wordcount)

  • Lazy evaluation

Travaux Pratiques :

Assurer ses premiers pas avec Apache Spark

Vue d’ensemble de HDFS et YARN

  • Vue d’ensemble de HDFS

  • Le Namenode et le Datanode

  • Vue d’ensemble de YARN

  • Composants cœur de YARN

Travaux Pratiques :

Utiliser les commandes HDFS

Jour 2

Programmation RDD avancée

  • D’autres fonctions de RDD "cœur"

  • Fonctions de RDD paires

  • Utiliser la documentation de Spark

Travaux Pratiques :

Utiliser le stockage HDFS

Programmation parallèle avec Spark

  • Partitionnement, jobs, stage et tasks

  • L’UI de Spark

  • Changer le niveau de parrallélisation

Travaux Pratiques :

Programmation parallèle sur Spark

Cacher et persister la donnée

  • Cache et persistance

Travaux Pratiques :

Cacher et persister la donnée

Exemple d’application itérative : PageRank
Checkpointing

Travaux Pratiques :

Checkpointing et RDD lineage

Jour 3

Créer des applications Spark

  • Créer une application à soumettre au cluster

  • Soumettre une application au cluster

  • Yarn client vs Yarn cluster

  • Points importants de configuration

  • Gérer/packager les dépendances

Travaux Pratiques :

Créer une application Sparkstandalone

Fonctionnalités avancées et amélioration des performances

  • Accumulateurs

Travaux Pratiques :

Utiliser les accumulateurs pour vérifier la qualité des données

Variables « broadcast »

Travaux Pratiques :

Utiliser les variables broadcast

Partitionnement avancé et opérations
Point de départ pour l’optimisation

Jour 4

Travailler vos données avec Zeppelin

  • L'exploration de données en Spark avec Zeppelin

  • Visualisation de données avec Zeppelin

  • Faire du reporting avec Zeppelin

Spark SQL

  • Les concepts de Spark SQL

  • Créer une Dataframe

  • Sauvegarder une Dataframe

  • Spark SQL et UDF

Travaux Pratiques :

Spark SQL avec utilisation d’UDF
Spark SQL avec Hive

Jour 5

Spark Streaming

  • L’architecture de Spark Streaming

  • Vue d’ensemble de Spark Streaming

  • Fiabilité des récepteurs et des sources

  • Transformations et opérations de sorties

Travaux Pratiques :

Wordcount en Spark Streaming

Configurer le checkpointing

Spark  MLLib

  • Vue d’ensemble de MLLib

  • Apprentissage supervisé

  • Apprentissage non supervisé

 


 Mokhtar Sellami

I am Mokhtar Sallami, certified in IBM Big Data Specialist with IBM BigInsights V2.1. I m a Technologist Lecturer in computer science at the High Institute of Technological Studies of KEF, Tunisia. I’m a CEO founder of Enodis Web start-up ( 2008-2012). I’ve worked as web Freelancer for Enode (https://www.linkedin.com/company/499839?trk=prof-exp-company-name). I am Big Data Trainer (IBM BigInsights, Cloudera) at the UIT, EPI, ISET Kef. I’ve participated as Cloudera Trainer at First International Spring school of Big Data and Cloud Computing (http://www.i2sbd2c.tn/index.html )


Nous contacter sur le 27 862 155 , 54 828 018, 71 866 142


Durée : 5 jours

Cours du jours : 

De 9h à 15h

Cours du soir & weekend : 

De 18:30 à 21h , Samedi matin,dimanche matin ,de 9h à 13h

Merci de nous contacter via email sur le contact@ghazelatc.com ou bien sur le 54 828 100, 54 828 018, 71 866142

Facilité de paiement

Vous pouvez payer par facilité à savoir par chèque anti daté sur plusieurs mois

Vous êtes une entreprise : 

Nous sommes à votre entière disposition pour vous fournir les documents nécessaires au vu de la déduction des frais de formation sur la TFP(Taxe à la Formation Professionnelle).


Apache and Hadoop Developer using Scala

 1775  vue Vues


Prochaine sessions:

Nous contacter

Confirmation de la session:

Une semaine avant la date prévue

Agile Scrum par la pratique

Angular mode projet

Big data par la pratique

Bootcamp Java Spring Angular

Bootcamp Java Spring Angular

DevOps

DevOps Tools Engineer par la pratique

ISTQB version 2018

Java 8 1Z0-808

Java 8 mode projet

Reconversion : Devenir développeur J2ee Angular de Zéro

Selenium par la pratique

Confirmation de la session:

Une semaine avant la date prévue


Recommandé pour:

Développeurs, Data Scientists, Architectes, Chefs de projet, Ingénieurs d’études.


A propos du lieu de la formation

Nous pouvons aussi nous déplacer dans vos locaux (formation intra-entreprise).

N'hésitez pas également à proposer d'autres dates ou lieux, si ceux proposés ne vous conviennent pas.


A la fin de la formation:

Vous aurez un certificat de formation agréé par l'état