Kursplan

Introduktion till Multi-Modal AI

  • Vad är multi-modal AI?
  • Nyckelutmaningar och tillämpningar
  • Översikt över ledande multimodala modeller

Textbehandling och förståelse av naturligt språk

  • Utnyttja LLM:er för textbaserade AI-agenter
  • Förståelse av promptteknik för multimodala uppgifter
  • Finjustering av textmodeller för domänspecifika tillämpningar

Bildrecognition och generering

  • Bearbeta bilder med AI: klassificering, bildtextning och objektigenkänning
  • Generera bilder med diffusionsmodeller (Stable Diffusion, DALLE)
  • Integrera bilddata med textbaserade modeller

Tal- och ljudbearbetning

  • Taligenkänning med Whisper ASR
  • Text-till-tal (TTS) syntes tekniker
  • Förbättra användarinteraktionen med röstbaserad AI

Integrera multimodala ingångar

  • Bygga AI-pipelines för att bearbeta flera inmatningstyper
  • Fusionstekniker för att kombinera text-, bild- och taldata
  • Verkliga tillämpningar av multimodala AI-agenter

Distribuera Multi-Modal AI Agents

  • Bygga API-drivna multimodala AI-lösningar
  • Optimera modeller för prestanda och skalbarhet
  • Bästa praxis för att distribuera multimodal AI i produktion

Etiska överväganden och framtida trender

  • Bias och rättvisa i multi-modal AI
  • Integritetsproblem med multimodal data
  • Framtida utvecklingar inom multi-modal AI

Sammanfattning och nästa steg

Krav

  • En förståelse för grunderna i maskininlärning
  • Erfarenhet av programmering
  • Familiaritet med djupinlärningsramverk (t.ex. , Py)

Publik

  • AI-utvecklare
  • Forskare
  • Multimediaingenjörer
 21 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier