Formation Apache Spark and Hadoop Developer using Scala Cloudera/Hortonworks

Les objectifs

Dans cette formation vous allez apprendre :

La programmation parallèle avec Scala sur Spark et Hadoop.
Identifier et définir les différents composants de l’écosystème Hadoop
Appréhender le fonctionnement de Spark
Développer des applications avec Apache Spark
Optimiser une application Spark
Utiliser Spark SQL et les dataframes
Faire de l’analyse en temps réel avec Spark streaming
Découvrir MLLib pour du machine learning sur Spark
Explorer, manipuler et visualiser vos données avec Zeppelin

Public

Développeurs, Data Scientists, Architectes, Chefs de projet, Ingénieurs d’études.

Pré-requis

Des connaissances de base en programmationavec Scala.
Etre familier avec la Programmation orientée objet
Connaissances en SQL et en conception d'application temps réel.

Contenu : Programme

Jour 1

Introduction à Hadoop, Hortonworks/Cloudera et au Big Data

Cas d’usage pour Hadoop
Qu’est-ce que le Big Data ?
HDP/CDH, Hortonworks/ Cloudera et l’écosystème Hadoop
Pourquoi utiliser Hortonworks/ Cloudera?

Introduction à Apache Spark

Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks/Cloudera

Programmer avec Apache Spark

Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation

Travaux Pratiques :

Assurer ses premiers pas avec Apache Spark

Vue d’ensemble de HDFS et YARN

Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN

Travaux Pratiques :

Utiliser les commandes HDFS

Jour 2

Programmation RDD avancée

D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark

Travaux Pratiques :

Utiliser le stockage HDFS

Programmation parallèle avec Spark

Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation

Travaux Pratiques :

Programmation parallèle sur Spark

Cacher et persister la donnée

Cache et persistance

Travaux Pratiques :

Cacher et persister la donnée

Exemple d’application itérative : PageRank
Checkpointing

Travaux Pratiques :

Checkpointing et RDD lineage

Jour 3

Créer des applications Spark

Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances

Travaux Pratiques :

Créer une application Sparkstandalone

Fonctionnalités avancées et amélioration des performances

Accumulateurs

Travaux Pratiques :

Utiliser les accumulateurs pour vérifier la qualité des données

Variables « broadcast »

Travaux Pratiques :

Utiliser les variables broadcast

Partitionnement avancé et opérations
Point de départ pour l’optimisation

Jour 4

Travailler vos données avec Zeppelin

L'exploration de données en Spark avec Zeppelin
Visualisation de données avec Zeppelin
Faire du reporting avec Zeppelin

Spark SQL

Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF

Travaux Pratiques :

Spark SQL avec utilisation d’UDF
Spark SQL avec Hive

Jour 5

Spark Streaming

L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties

Travaux Pratiques :

Wordcount en Spark Streaming

Configurer le checkpointing

Spark MLLib

Vue d’ensemble de MLLib
Apprentissage supervisé
Apprentissage non supervisé

Mokhtar Sellami

I am Mokhtar Sallami, certified in IBM Big Data Specialist with IBM BigInsights V2.1. I m a Technologist Lecturer in computer science at the High Institute of Technological Studies of KEF, Tunisia. I’m a CEO founder of Enodis Web start-up ( 2008-2012). I’ve worked as web Freelancer for Enode (https://www.linkedin.com/company/499839?trk=prof-exp-company-name). I am Big Data Trainer (IBM BigInsights, Cloudera) at the UIT, EPI, ISET Kef. I’ve participated as Cloudera Trainer at First International Spring school of Big Data and Cloud Computing (http://www.i2sbd2c.tn/index.html )

Nous contacter sur le 27 862 155 , 54 828 018, 71 866 142

Durée : 5 jours

Cours du jours :

De 9h à 15h

Cours du soir & weekend :

De 18:30 à 21h , Samedi matin,dimanche matin ,de 9h à 13h

Merci de nous contacter via email sur le contact@ghazelatc.com ou bien sur le 54 828 100, 54 828 018, 71 866142

Facilité de paiement

Vous pouvez payer par facilité à savoir par chèque anti daté sur plusieurs mois

Vous êtes une entreprise :

Nous sommes à votre entière disposition pour vous fournir les documents nécessaires au vu de la déduction des frais de formation sur la TFP(Taxe à la Formation Professionnelle).

Apache and Hadoop Developer using Scala

1797 Vues

Prochaine sessions:

Nous contacter

Confirmation de la session:

Une semaine avant la date prévue

Agile Scrum par la pratique

Angular mode projet

Big data par la pratique

Bootcamp Java Spring Angular

Bootcamp Java Spring Angular

DevOps

DevOps Tools Engineer par la pratique

ISTQB version 2018

Java 8 1Z0-808

Java 8 mode projet

Reconversion : Devenir développeur J2ee Angular de Zéro

Selenium par la pratique

Confirmation de la session:

Une semaine avant la date prévue

Recommandé pour:

Développeurs, Data Scientists, Architectes, Chefs de projet, Ingénieurs d’études.

A propos du lieu de la formation

Nous pouvons aussi nous déplacer dans vos locaux (formation intra-entreprise).

N'hésitez pas également à proposer d'autres dates ou lieux, si ceux proposés ne vous conviennent pas.

A la fin de la formation:

Vous aurez un certificat de formation agréé par l'état