Kursplan

spark.mllib: datatyper, algoritmer och verktyg

  • Datatyper
  • Grundläggande statistik
    • Sammanfattande statistik
    • Korrelationer
    • Stratifierad provtagning
    • Hypotesprövning
    • Testning av strömnings signifikans
    • Slumpmässig datagenerering
  • Klassificering och regression
    • linjära modeller (SVM, logistisk regression, linjär regression)
    • naiva Bayes
    • Beslutsträd
    • ensembler av träd (Random Forests och Gradient-Boosted Trees)
    • isoton regression
  • Gemensam filtrering
    • alternerande minsta kvadratmetoden (ALS)
  • Klustring
    • k-medel
    • Gaussisk blandning
    • klustring av kraftfull iteration (PIC)
    • latent Dirichlet-allokering (LDA)
    • Halverande k-medelvärden
    • Strömning K-Means
  • Minskning av dimensionalitet
    • Singular Value-dekomposition (SVD)
    • Analys av huvudkomponenter (PCA)
  • Extrahering och transformering av funktioner
  • Frekvent mönsterutvinning
    • FP-tillväxt
    • Föreningens stadgar
    • PrefixSpan (prefixSpan)
  • Mått för utvärdering
  • Export av PMML-modell
  • Optimering (utvecklare)
    • Stochastic Gradient Descent
    • BFGS MED BEGRÄNSAT MINNE (L-BFGS)

spark.ml: API:er på hög nivå för ML-pipelines

  • Översikt: estimatorer, transformatorer och rörledningar
  • Extrahera, transformera och välja funktioner
  • Klassificering och regression
  • Klustring
  • Avancerade ämnen

Krav

Kunskaper om något av följande:

  • Java
  • Scala
  • Python
  • SparkR.
 35 timmar

Antal deltagare


Price per participant

Vittnesmål (1)

Upcoming Courses

Relaterade Kategorier