Zum Campus
Videokurs

PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames

Vertiefe dein Wissen in PySpark und lerne, wie du große Datenmengen effizient mit DataFrames verarbeitest und analysierst

LERNZIELE

  • Du kannst PySpark-DataFrames erstellen und über Schemas Datentypen definieren
  • Du beherrschst grundlegende DataFrames-Operationen, wie Filterungen und Sortierungen
  • Du führst Aggregationen und Pivot-Operationen zur Datenaufbereitung durch
  • Du lernst, mit Text-, Datums- und Zeitfunktionen sowie fehlenden Daten umzugehen
  • Du weißt, wie du DataFrames über die Join- und Union-Methode kombinierst
  • Du setzt Window-Funktionen für komplexe Analysen ein

INHALT

PySpark bietet eine Schnittstelle für die Nutzung von Apache Spark in Python. Es vereint die Performanz von Apache Spark mit der Flexibilität von Python und erleichtert damit die Abfrage, Verarbeitung und Auswertung großer Datenmengen.

Im zweiten Teil unserer PySpark-Reihe widmen wir uns der Datenverarbeitung mit DataFrames. Zunächst lernst du, wie du DataFrames erstellst und Schemas definierst und worin sich Spark- und Pandas-DataFrames unterscheiden. Danach setzt du zentrale Operationen wie Selektionen, Berechnungen, Filterungen und Sortierungen praktisch um.

Schritt für Schritt erweiterst du anschließend dein Wissen um fortgeschrittene Techniken – von Spaltenbearbeitung, Aggregationen und Gruppierungen über Pivot-Operationen bis hin zu Text-, Datums- und Zeitfunktionen. Zum Schluss erfährst du, wie du DataFrames über Joins oder Mengenoperationen kombinierst und Window-Funktionen für komplexe Analysen nutzt.

Während des gesamten Kurses arbeitest du mit vorbereiteten Beispieldaten und kannst somit das Gelernte direkt in praktische Anwendung überführen und in Übungsaufgaben festigen.

Unsere Kursreihe zu PySpark umfasst folgende Teile:

  • PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation
  • PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
  • PySpark – Teil 3: Datenverarbeitung mit Spark SQL
  • PySpark – Teil 4: Machine Learning mit Spark MLlib

ALLE LEKTIONEN IM ÜBERBLICK

Vorstellung und Infos zum Kurs
  • Herzlich willkommen zu diesem Kurs
Schnelleinstieg in PySpark
  • Kapitelüberblick
  • Kurzeinführung in PySpark
Datenverarbeitung mit PySpark DataFrames
  • Kapitelüberblick
  • Vorstellung der Projektdaten und Problemstellungen
  • Erstellung von PySpark DataFrames
  • Datentypen definieren per Spark-Schema
  • DataFrames: Spark vs. Pandas
  • Grundlegende DataFrame-Operationen mit select()
  • Spalten berechnen: Umsatz aus Verkaufsmenge und Preis
  • Einfache Filterungen mit kategorischen und numerischen Filtern
  • Sortieren und Ordnen von Datensätzen mit orderBy()
  • Filterungen und Operatoren
  • Erweiterte Filterungen mit isin, between und like
  • Aufgabe: Filterungen und Sortierungen
  • Lösung: Filterungen und Sortierungen (Teil 1)
  • Lösung: Filterungen und Sortierungen (Teil 2)
  • Quiz: Datenverarbeitung mit PySpark DataFrames
Erweiterte DataFrame-Operationen und Optimierungen
  • Kapitelüberblick
  • Spalten bearbeiten, Elemente umbenennen, hinzufügen und löschen
  • Bedingte Spalten berechnen
  • Aggregationen: Datenbestände zusammenfassen
  • Gruppierungen und Aggregationen mit groupBy
  • Gruppierungen nach mehreren Kategorien oder Aggregationen
  • Filterungen bei Gruppierungen
  • Pivot-Operationen
  • Aufgabe: Spaltenbearbeitung und Gruppierungen
  • Lösung: Spaltenbearbeitung und Gruppierungen
  • Textfunktionen
  • Umgang mit fehlenden Daten
  • Arbeiten mit Datums- und Zeitfunktionen
  • Kombinieren und Joins von DataFrames
  • Operationen mit union, intersect, und except
  • Window-Funktionen in PySpark
  • Aufgabe: Fortgeschrittene DataFrame-Operationen
  • Lösung: Fortgeschrittene DataFrame-Operationen
  • Quiz: Erweiterte DataFrame-Operationen und Optimierungen
Abschluss
  • Fazit und Kursabschluss

SO LERNST DU MIT DIESEM KURS

In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:

  • Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
  • Wissensquiz zur Lernkontrolle
  • Lernhistorie und Lernfortschritt
  • Lesezeichen und Notizen
  • Volltextsuche in den Videos
  • Übungsmaterial zum Mitmachen
  • Responsive Web-App und Videostreaming für alle Endgeräte

TECHNISCHE VORAUSSETZUNGEN

Für diesen Videokurs wird lediglich ein aktueller Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

DEIN EXPERTE

Fabio Basler
Data Scientist und Statistik-Trainer | Selbstständig

Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.

PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames

Veröffentlicht am 13.12.2025
ab 49,00 €
im
ESSENTIAL PASS
oder 195,00 € im Einzelkauf
inkl. MwSt. | 163,87 € netto
Preise und Pakete vergleichen

Du hast Fragen zu unseren academy Videokursen? Wir helfen dir gerne weiter.

Fülle ganz einfach und bequem das Kontaktformular aus und wir werden deine Fragen schnellstmöglich beantworten.

Kontaktformular