Kursplan

  • Introduktion
    • Hadoop historia, begrepp
    • Ekosystem
    • Distributioner
    • Övergripande arkitektur
    • Hadoop myter
    • Hadoop utmaningar (hårdvara / mjukvara)
    • Labbar: diskutera dina Big Data projekt och problem
  • Planering och installation
    • Val av programvara, Hadoop distributioner
    • Dimensionering av kluster, planering för tillväxt
    • Val av hårdvara och nätverk
    • Racktopologi
    • Installation
    • Multitenancy
    • Katalogstruktur, loggar
    • Benchmarking
    • Labbar: klusterinstallation, kör prestandabenchmarks
  • HDFS-operationer
    • Begrepp (horisontell skalbarhet, replikering, data-lokalitet, rack-medvetenhet)
    • Noder och demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Hälsövervakning
    • Kommandorads- och webbaserad administration
    • Tillägg av lagring, byte av defekta drivrutiner
    • Labbar: bli bekant med HDFS-kommandorader
  • Datainsamling
    • Flume för loggar och andra datainsamlingar till HDFS
    • Sqoop för import från SQL databaser till HDFS, samt export tillbaka till SQL
    • Hadoop datawarehousing med Hive
    • Kopiering av data mellan kluster (distcp)
    • Användning av S3 som komplement till HDFS
    • Bästa praxis och arkitekturer för datainsamling
    • Labbar: installera och använda Flume, samma för Sqoop
  • MapReduce-operationer och administration
    • Parallelldatorns historia innan MapReduce: jämförelse mellan HPC och Hadoop administration
    • MapReduce-klusterbelastningar
    • Noder och demoner (JobTracker, TaskTracker)
    • MapReduce UI-omgång
    • MapReduce-konfiguration
    • Jobbkonfiguration
    • Optimering av MapReduce
    • Så att det inte går fel med MR: vad man ska berätta för sina programmerare
    • Labbar: köra MapReduce-exempel
  • YARN: ny arkitektur och nya möjligheter
    • YARN-designmål och implementeringsarkitektur
    • Nya aktörer: ResourceManager, NodeManager, Application Master
    • Installation av YARN
    • Jobbschema under YARN
    • Labbar: undersöka jobbschema
  • Avancerade ämnen
    • Hårdvarövervakning
    • Klusterövervakning
    • Tillägg och borttagning av servrar, uppgradering av Hadoop
    • Säkerhetskopiering, återställning och planering för affärsfortsättning
    • Oozie-jobbflöden
    • Hadoop hög tillgänglighet (HA)
    • Hadoop Federation
    • Säkra ditt kluster med Kerberos
    • Labbar: installera övervakning
  • Valbara spår
    • Cloudera Manager för klusteradministration, övervakning och rutinuppgifter; installation, användning. I detta spår utförs alla övningar och labbar inom Cloudera-distributionen (CDH5)
    • Ambari för klusteradministration, övervakning och rutinuppgifter; installation, användning. I detta spår utförs alla övningar och labbar inom Ambari-klusterhanteraren och Hortonworks Data Platform (HDP 2.0)

Krav

  • bekväm med grundläggande systemförvaltning
  • grundläggande skriptskickligheter

Kunskap om Hadoop och Distributed Computing är inte ett krav, men kommer att introduceras och förklaras under kursen.

Labbmiljö

Zero Install: Det finns ingen anledning att installera Hadoop-programvara på studenternas datorer! Ett fungerande Hadoop-kluster kommer att tillhandahållas för studenterna.

Studenterna behöver följande

  • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows rekommenderas Putty)
  • en webbläsare för att få åtkomst till klustret. Vi rekommenderar Firefox-webbläsaren med FoxyProxy-tillägg installerat
 21 timmar

Antal deltagare


Price per participant

Vittnesmål (5)

Upcoming Courses

Relaterade Kategorier