Ref: DS 01
Pré requis
- Aucune connaissance sur Hadoop n’est requise.
- La connaissance du SQL et des langages de programmation serait un plus.
- La plateforme reposant sur une architecture Linux, il est demandé aux participants de savoir naviguer et modifier des fichiers dans cet environnement.
Public
- Chefs de projet, consultants fonctionnel, responsables marketing, développeurs « Big Data », ingénieurs d’études, s’adresse à tous ceux désireux d’acquérir des connaissances pratiques en Hadoop
Objectifs
- Présenter les enjeux de l’analyse des données numériques à grande échelle.
- Comprendre pourquoi tout le monde parle du Big Data et son impact dans l’entreprise.
- Comment faire du Big Data ? Sur quelle plateforme technologique s’appuyer ?
- Identifier et s’approprier les outils de l’écosystème Hadoop pour chaque cas d’usage
- Acquérir les meilleurs pratiques pour l’administration d’Apache Hadoop 2.0
- Savoir définir la taille d’un cluster et comment le déployer
- Savoir installer et configurer Hadoop
- Savoir définir la taille d’un cluster et comment le déployer
- Savoir installer et configurer Hadoop
- Comprendre comment gérer en permanence et maintenir des noeuds dans le cluster
- Être capable d’optimiser la performance d’un cluster .
- Être en mesure de surveiller les statuts et l’état de santé du cluster dans un outil de monitoring Comprendre comment mettre en place une haute solution de disponibilité
- Connaître les meilleures pratiques pour déployer un cluster Hadoop
- Connaître Hadoop 2.0 et Hadoop Distributed File System
- Comprendre comment mettre en oeuvre le nouveau Framework YARN dans Hadoop 2.0
- Acquérir les compétences nécessaires pour programmer avec « MapReduce »
- Savoir optimiser une tâche MapReduce en suivant les meilleures pratiques
- Savoir créer et exécuter des requêtes Hive sur des données HDFS
- Savoir débugger des programmes « MapReduce » pour les fiabiliser
Durée
- 2 jours
Moyens pédagogiques
- Alternance d’exposés et d’applications pratiques.
- Les moyens pédagogiques et les méthodes d’enseignement utilisés sont principalement : aides audiovisuelles, documentation et support de cours, exercices pratiques d’application et corrigés des exercices pour les stages pratiques, études de cas ou présentation de cas réels pour les séminaires de formation.
Programme
INTRODUCTION
- Présentation générale d’Hadoop
- Exemples d’utilisation dans différents secteurs
- Historique et chiffres clés : Quand parle-t-on de Big Data ?
- Les possibilités d’implantation de l’infrastructure et les coûts associés
L'écosystème d'Hadoop
Le système de fichier HDFS
- Le paradigme MapReduce et l’utilisation à travers YARN
- Le garant des informations : Zookeeper
- Le système de stockage de la donnée basé sur le socle : HBase
- La présentation de l’architecture globale : où installer les services ?
- La définition du dimensionnement pour un cluster Hadoop
- Les particularités de Cloudera
- Les principaux composants : HDFS, Hbase, Hive, Pig, MapReduce, Zookeeper, flume, sqoop, gis-tools, mahout
Installation du socle d'Hadoop
- Installation et configuration manuelle pas-à-pas sur plusieurs machines de : HDFS, YARN, Zookeeper, HBase.
Manipulation des données dans un cluster Hadoop
- Architecture, Objectif et fonctionnement de : Hue, Hive, Pig, Oozie, Sqoop, Flume, Spark
- Mise en pratique sur les différents outils
Exploitation d'architecture complexe
- Architecture en rack : les avantages et fonctionnement et paramétrage du rack awareness
- Scalabilité et performances : le Namenode Federation
- High Availability des serveurs maitres
- Utilisation des snapshots : sauvegarde et restauration
Fondement, planification et installation
- Introduction à la plateforme de données Hadoop 2.0
- Stockage Hadoop : Architecture HDFS
- érequis pour l’installation
- Hadoop Operating System (YARN) et MapReduce
Configuration et gestion de données
- Service de configuration
- Configuration HDFS
- Configuration de Hadoop Operating System (YARN) et MapReduce
- Configuration HBase
- Configuration ZooKeeper
- Configuration Schedulers
- Intégrité des données
- Extract-Load-Transform (ELT) Data Movement
Management des données / Operations
- HDFS service Web
- Apache Hive Data Warehouse
- Transfert de données aves Sqoop
- Mouvement de données log avec Flume
- HDFS NFS Gateway
- Workflow management : Oozie
- Management du cycle de vie des données avec Falcon
- Monitoring des Services
- Mise en service ou hors service des noeuds et services