Kursplan
- Introduktion
- Hadoop historia, begrepp
- Ekosystem
- Distributioner
- Övergripande arkitektur
- Hadoop myter
- Hadoop utmaningar (hårdvara / mjukvara)
- Labbar: diskutera dina Big Data projekt och problem
- Planering och installation
- Val av programvara, Hadoop distributioner
- Dimensionering av kluster, planering för tillväxt
- Val av hårdvara och nätverk
- Racktopologi
- Installation
- Multitenancy
- Katalogstruktur, loggar
- Benchmarking
- Labbar: klusterinstallation, kör prestandabenchmarks
- HDFS-operationer
- Begrepp (horisontell skalbarhet, replikering, data-lokalitet, rack-medvetenhet)
- Noder och demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Hälsövervakning
- Kommandorads- och webbaserad administration
- Tillägg av lagring, byte av defekta drivrutiner
- Labbar: bli bekant med HDFS-kommandorader
- Datainsamling
- Flume för loggar och andra datainsamlingar till HDFS
- Sqoop för import från SQL databaser till HDFS, samt export tillbaka till SQL
- Hadoop datawarehousing med Hive
- Kopiering av data mellan kluster (distcp)
- Användning av S3 som komplement till HDFS
- Bästa praxis och arkitekturer för datainsamling
- Labbar: installera och använda Flume, samma för Sqoop
- MapReduce-operationer och administration
- Parallelldatorns historia innan MapReduce: jämförelse mellan HPC och Hadoop administration
- MapReduce-klusterbelastningar
- Noder och demoner (JobTracker, TaskTracker)
- MapReduce UI-omgång
- MapReduce-konfiguration
- Jobbkonfiguration
- Optimering av MapReduce
- Så att det inte går fel med MR: vad man ska berätta för sina programmerare
- Labbar: köra MapReduce-exempel
- YARN: ny arkitektur och nya möjligheter
- YARN-designmål och implementeringsarkitektur
- Nya aktörer: ResourceManager, NodeManager, Application Master
- Installation av YARN
- Jobbschema under YARN
- Labbar: undersöka jobbschema
- Avancerade ämnen
- Hårdvarövervakning
- Klusterövervakning
- Tillägg och borttagning av servrar, uppgradering av Hadoop
- Säkerhetskopiering, återställning och planering för affärsfortsättning
- Oozie-jobbflöden
- Hadoop hög tillgänglighet (HA)
- Hadoop Federation
- Säkra ditt kluster med Kerberos
- Labbar: installera övervakning
- Valbara spår
- Cloudera Manager för klusteradministration, övervakning och rutinuppgifter; installation, användning. I detta spår utförs alla övningar och labbar inom Cloudera-distributionen (CDH5)
- Ambari för klusteradministration, övervakning och rutinuppgifter; installation, användning. I detta spår utförs alla övningar och labbar inom Ambari-klusterhanteraren och Hortonworks Data Platform (HDP 2.0)
Krav
- bekväm med grundläggande systemförvaltning
- grundläggande skriptskickligheter
Kunskap om Hadoop och Distributed Computing är inte ett krav, men kommer att introduceras och förklaras under kursen.
Labbmiljö
Zero Install: Det finns ingen anledning att installera Hadoop-programvara på studenternas datorer! Ett fungerande Hadoop-kluster kommer att tillhandahållas för studenterna.
Studenterna behöver följande
- en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows rekommenderas Putty)
- en webbläsare för att få åtkomst till klustret. Vi rekommenderar Firefox-webbläsaren med FoxyProxy-tillägg installerat
Vittnesmål (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay