Zum Campus
Videokurs

PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation

Erlerne die Grundlagen von Apache Spark mit der Programmiersprache Python

LERNZIELE

  • Du erhältst einen Überblick über die Grundlagen von Big Data
  • Du verstehst die Architektur von Apache Spark
  • Du erfährst, wie du PySpark in Jupyter Lab einsetzt
  • Du machst dich mit den grundlegenden Konzepten von PySpark vertraut
  • Du lernst zentrale Datenstrukturen in PySpark kennen
  • Du machst erste Schritt in der Anwendung von Spark SQL

INHALT

PySpark bietet eine Schnittstelle für die Nutzung von Apache Spark in Python. Es vereint die Performanz von Apache Spark mit der Flexibilität von Python und erleichtert damit die Abfrage, Verarbeitung und Auswertung großer Datenmengen.

In diesem Kurs erhältst du einen fundierten Einstieg in die Arbeit mit PySpark. Nach einer theoretischen Einführung in Big Data und die Architektur von Spark lernst du zentrale Konzepte wie SparkContext und SparkSession kennen. Anschließend arbeitest du mit den grundlegenden Datenstrukturen in PySpark, den Resilient Distributed Datasets (RDDs) sowie den Spark DataFrames, und setzt Spark SQL gezielt für effiziente Datenabfragen ein. Praktische Übungen helfen dir dabei, das Gelernte zu festigen und anzuwenden.

Dieser Kurs gehört zu einer Kursreihe:

  • PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation
  • PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
  • PySpark – Teil 3: Datenverarbeitung mit Spark SQL
  • PySpark – Teil 4: Machine Learning mit Spark MLlib

ALLE LEKTIONEN IM ÜBERBLICK

Vorstellung und Infos zum Kurs
  • Herzlich willkommen zu diesem Kurs
Einführung und Vorbereitung
  • Kapitelüberblick
  • Theorie: Was ist Big Data?
  • Theorie: Herausforderungen bei der Arbeit mit großen Datenmengen
  • Theorie: Big Data Tools
  • Theorie: Einführung in Apache Spark und seine Architektur
  • Größe einer Excel-Tabelle in der Analyse
  • Installation der Entwicklungsumgebung mit Jupyter Labs
  • Einrichtung von PySpark mit Jupyter Labs
  • Quiz: Einführung und Vorbereitung
Grundlegende Konzepte und Datenstrukturen in PySpark
  • Kapitelüberblick
  • Theorie: SparkContext und SparkSession
  • SparkContext und SparkSession
  • Theorie: Grundlegende Datenstrukturen in PySpark
  • Spark-Cluster-Komponenten im Überblick
  • PySpark-Datenstrukturen: Resilient Distributed Datasets (RDDs)
  • PySpark-Datenstrukturen: Spark DataFrames
  • Spark SQL als SQL-Schnittstelle für die Interaktion mit DataFrames
  • Quiz: Grundlegende Konzepte und Datenstrukturen in PySpark
Abschluss
  • Fazit und Kursabschluss

SO LERNST DU MIT DIESEM KURS

In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:

  • Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
  • Wissensquiz zur Lernkontrolle
  • Lernhistorie und Lernfortschritt
  • Lesezeichen und Notizen
  • Volltextsuche in den Videos
  • Übungsmaterial zum Mitmachen
  • Responsive Web-App und Videostreaming für alle Endgeräte

TECHNISCHE VORAUSSETZUNGEN

Für diesen Videokurs wird lediglich ein aktueller Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

DEIN EXPERTE

Fabio Basler
Data Scientist und Statistik-Trainer | Selbstständig

Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.

PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation

Veröffentlicht am 13.12.2025
ab 49,00 €
im
ESSENTIAL PASS
oder 95,00 € im Einzelkauf
inkl. MwSt. | 79,83 € netto
Preise und Pakete vergleichen

Du hast Fragen zu unseren academy Videokursen? Wir helfen dir gerne weiter.

Fülle ganz einfach und bequem das Kontaktformular aus und wir werden deine Fragen schnellstmöglich beantworten.

Kontaktformular