Les objectifs
Dans cette formation vous allez apprendre :
-
La programmation parallèle avec Scala sur Spark et Hadoop.
-
Identifier et définir les différents composants de l’écosystème Hadoop
-
Appréhender le fonctionnement de Spark
-
Développer des applications avec Apache Spark
-
Optimiser une application Spark
-
Utiliser Spark SQL et les dataframes
-
Faire de l’analyse en temps réel avec Spark streaming
-
Découvrir MLLib pour du machine learning sur Spark
-
Explorer, manipuler et visualiser vos données avec Zeppelin
Public
-
Développeurs, Data Scientists, Architectes, Chefs de projet, Ingénieurs d’études.
Pré-requis
-
Des connaissances de base en programmationavec Scala.
-
Etre familier avec la Programmation orientée objet
-
Connaissances en SQL et en conception d'application temps réel.
Contenu : Programme
Jour 1
Introduction à Hadoop, Hortonworks/Cloudera et au Big Data
-
Cas d’usage pour Hadoop
-
Qu’est-ce que le Big Data ?
-
HDP/CDH, Hortonworks/ Cloudera et l’écosystème Hadoop
-
Pourquoi utiliser Hortonworks/ Cloudera?
Introduction à Apache Spark
-
Qu’est-ce que Spark et d’où vient-il ?
-
Pourquoi utiliser Spark ?
-
Spark vs MapReduce
-
L’évolution rapide de Spark et l’engagement d’Hortonworks/Cloudera
Programmer avec Apache Spark
-
Les composants de Spark
-
Premiers pas avec Spark
-
Les RDD
-
Transformations et actions
-
Spark Hello World (wordcount)
-
Lazy evaluation
Travaux Pratiques :
Assurer ses premiers pas avec Apache Spark
Vue d’ensemble de HDFS et YARN
-
Vue d’ensemble de HDFS
-
Le Namenode et le Datanode
-
Vue d’ensemble de YARN
-
Composants cœur de YARN
Travaux Pratiques :
Utiliser les commandes HDFS
Jour 2
Programmation RDD avancée
-
D’autres fonctions de RDD "cœur"
-
Fonctions de RDD paires
-
Utiliser la documentation de Spark
Travaux Pratiques :
Utiliser le stockage HDFS
Programmation parallèle avec Spark
-
Partitionnement, jobs, stage et tasks
-
L’UI de Spark
-
Changer le niveau de parrallélisation
Travaux Pratiques :
Programmation parallèle sur Spark
Cacher et persister la donnée
Travaux Pratiques :
Cacher et persister la donnée
Exemple d’application itérative : PageRank
Checkpointing
Travaux Pratiques :
Checkpointing et RDD lineage
Jour 3
Créer des applications Spark
-
Créer une application à soumettre au cluster
-
Soumettre une application au cluster
-
Yarn client vs Yarn cluster
-
Points importants de configuration
-
Gérer/packager les dépendances
Travaux Pratiques :
Créer une application Sparkstandalone
Fonctionnalités avancées et amélioration des performances
Travaux Pratiques :
Utiliser les accumulateurs pour vérifier la qualité des données
Variables « broadcast »
Travaux Pratiques :
Utiliser les variables broadcast
Partitionnement avancé et opérations
Point de départ pour l’optimisation
Jour 4
Travailler vos données avec Zeppelin
-
L'exploration de données en Spark avec Zeppelin
-
Visualisation de données avec Zeppelin
-
Faire du reporting avec Zeppelin
Spark SQL
-
Les concepts de Spark SQL
-
Créer une Dataframe
-
Sauvegarder une Dataframe
-
Spark SQL et UDF
Travaux Pratiques :
Spark SQL avec utilisation d’UDF
Spark SQL avec Hive
Jour 5
Spark Streaming
-
L’architecture de Spark Streaming
-
Vue d’ensemble de Spark Streaming
-
Fiabilité des récepteurs et des sources
-
Transformations et opérations de sorties
Travaux Pratiques :
Wordcount en Spark Streaming
Configurer le checkpointing
Spark MLLib
-
Vue d’ensemble de MLLib
-
Apprentissage supervisé
-
Apprentissage non supervisé
Nous contacter sur le 27 862 155 , 54 828 018, 71 866 142
Durée :
5 jours
Cours du jours :
De 9h à 15h
Cours du soir & weekend :
De 18:30 à 21h , Samedi matin,dimanche matin ,de 9h à 13h
Merci de nous contacter via email sur le contact@ghazelatc.com ou bien sur le 54 828 100, 54 828 018, 71 866142
Facilité de paiement
Vous pouvez payer par facilité à savoir par chèque anti daté sur plusieurs mois
Vous êtes une entreprise :
Nous sommes à votre entière disposition pour vous fournir les documents nécessaires au vu de la déduction des frais de formation sur la TFP(Taxe à la Formation Professionnelle).