Description
Module A : Aperçu de l'analyse des données et du pipeline de données
- Cas d'utilisation de l'analyse de données
- Utilisation du pipeline de données pour l'analyse
Module 1 : Introduction à Amazon EMR
- Utilisation d'Amazon EMR dans les solutions analytiques
- Architecture du cluster Amazon EMR
- Démo interactive 1 : Lancement d'un cluster Amazon EMR
- Stratégies de gestion des coûts
Module 2 : Pipeline d'analyse de données utilisant Amazon EMR : Ingestion et stockage
- Optimisation du stockage avec Amazon EMR
- Techniques d'ingestion de données
Module 3 : Analyse de données par lots haute performance avec Apache Spark sur Amazon EMR
- Cas d'utilisation d'Apache Spark sur Amazon EMR
- Pourquoi Apache Spark sur Amazon EMR ?
- Concepts de Spark interactive 2 : Connectez-vous à un cluster EMR et exécutez des commandes Scala à l'aide du shell Spark
- Transformation, traitement et analyse
- Utilisation de notebooks avec Amazon EMR
Atelier 1 : analyse de données à faible latence avec Apache Spark sur Amazon EMR
Module 4 : Traitement et analyse de données par lots avec Amazon EMR et Apache Hive
- Utilisation d'Amazon EMR avec Hive pour traiter des données par lots
- Transformation, traitement et analyse
Atelier 2 : Traitement de données par lots à l'aide d'Amazon EMR et Hive
- Introduction à Apache HBase sur Amazon EMR
Module 5 : Traitement des données sans serveur
- Traitement, transformation et analyse des données sans serveur
- Utilisation d'AWS Glue avec les charges de travail Amazon EMR
Atelier 3 : orchestrer le traitement des données dans Spark à l'aide d'AWS Step Functions
Module 6 : Sécurité et surveillance des clusters Amazon EMR
- Sécurisation des clusters EMR
- Démonstration interactive 3 : cryptage côté client avec EMRFS
- Surveillance et dépannage des clusters Amazon EMR
- Démo : Examen de l'historique du cluster Apache Spark
Module 7 : Conception de solutions d'analyse de données par lots
- Cas d'utilisation de l'analyse de données par lots
Activité 4 : Conception d'un flux de travail d'analyse de données par lots
Module B : Développement d'architectures de données modernes sur AWS
- Architectures de données modernes
Objectifs
Validez de nouvelles COMPETENCES
A l'issue de la formation, les participants seront capables de :
- Comparer les caractéristiques et les avantages des entrepôts de données, des lacs de données et des architectures de données modernes
- Concevoir et mettre en ouvre une solution d'analyse de données par lots
- Identifier et appliquer les techniques appropriées, notamment la compression, pour optimiser le stockage des données
- Sélectionner et déployer les options appropriées pour ingérer, transformer et stocker les données
- Sélectionner les types d'instances et de nouds, les clusters, la mise à l'échelle automatique et la topologie réseau appropriés pour un cas d'utilisation particulier
- Comprendre comment le stockage et le traitement des données affectent les mécanismes d'analyse et de visualisation nécessaires pour obtenir des informations commerciales exploitables
- Décrire comment sécuriser les données au repos et en transit
- Surveiller les charges de travail analytiques afin d'identifier et de résoudre les problèmes
- Identifier les meilleures pratiques de gestion des coûts
Résultats
Les interactions avec notre instructeur et vos pairs en classe ainsi que la réalisation de labs pratiques constituent un atout essentiel à la progression pédagogique et l'acquisition de compétences.
Le contenu officiel de notre formation permet de préparer au passage de l'examen de certification AWS, mais il doit être complété par le suivi d'autres modules "Building Data Lakes" et "Building Data Analytics Solutions Using Amazon Redshift" ou par une expérience équivalente.
Un certificat de réalisation est remis en fin de formation.