Zum Campus
Videokurs

PySpark – Teil 3: Datenverarbeitung mit Spark SQL

Vom Filtern, Sortieren und Aggregieren von Daten über Joins und Unterabfragen bis hin zur Query-Optimierung

LERNZIELE

  • Du lernst die Architektur von Spark SQL kennen
  • Du lernst, Datensätze nach unterschiedlichen Kriterien zu filtern, zu ordnen und zu sortieren
  • Du nutzt Gruppierungen und Aggregationen, um Daten zu verdichten und Muster zu erkennen
  • Du meisterst Subqueries und komplexere SQL-Abfragen
  • Du setzt den Catalyst Optimizer zur Abfrageoptimierung ein

INHALT

Im dritten Teil unserer PySpark-Reihe steht die Datenverarbeitung mit Spark SQL im Mittelpunkt. Spark SQL ermöglicht es, strukturierte Daten in Apache Spark mit vertrauter SQL-Syntax abzufragen und zu analysieren – kombiniert mit der Skalierbarkeit verteilter Big-Data-Verarbeitung und der nahtlosen Integration von Python.

Wir beginnen mit einem Überblick über die Architektur und Funktionsweise von Spark SQL. Anschließend lernst du, Daten zu filtern, zu sortieren und zu aggregieren. Darüber hinaus vertiefst du dein Wissen durch die Anwendung von Joins, Unterabfragen (Subqueries) und fortgeschritteneren SQL-Abfragen. Zum Schluss erfährst du, wie du deine Abfragen mit dem Catalyst Optimizer optimierst.

Übungsaufgaben begleiten dich durch diesen Kurs. Damit kannst du das Gelernte praktisch anwenden und festigen.

Die Reihe zu PySpark umfasst folgende Kurse:

  • PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation
  • PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
  • PySpark – Teil 3: Datenverarbeitung mit Spark SQL
  • PySpark – Teil 4: Machine Learning mit Spark MLlib

ALLE LEKTIONEN IM ÜBERBLICK

Vorstellung und Infos zum Kurs
  • Herzlich willkommen zu diesem Kurs
Schnelleinstieg in PySpark
  • Kapitelüberblick
  • Kurzeinführung in PySpark
Datenverarbeitung mit Spark SQL
  • Kapitelüberblick
  • Theorie: Überblick über Spark SQL und seine Architektur
  • Spark SQL in der Praxis
  • Einfache Filterungen
  • Erweiterte Filterungen
  • Ordnen und Sortieren von Datensätzen
  • Aufgabe: Sortieren und Filtern von Datensätzen
  • Lösung: Sortieren und Filtern von Datensätzen
  • Gruppierungen und Aggregationen
  • Fehlende Daten mit NULL
  • Join-Operationen zwischen DataFrames
  • Unterabfragen (Subqueries)
  • Komplexere Abfragen
  • Catalyst Optimizer
  • Aufgabe: Gruppierungen und Joins
  • Lösung: Gruppierungen und Joins (Teil 1)
  • Lösung: Gruppierungen und Joins (Teil 2)
  • Quiz: Datenverarbeitung mit Spark SQL
Abschluss
  • Fazit und Kursabschluss

SO LERNST DU MIT DIESEM KURS

In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:

  • Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
  • Wissensquiz zur Lernkontrolle
  • Lernhistorie und Lernfortschritt
  • Lesezeichen und Notizen
  • Volltextsuche in den Videos
  • Übungsmaterial zum Mitmachen
  • Responsive Web-App und Videostreaming für alle Endgeräte

TECHNISCHE VORAUSSETZUNGEN

Für diesen Videokurs wird lediglich ein aktueller Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

DEIN EXPERTE

Fabio Basler
Data Scientist und Statistik-Trainer | Selbstständig

Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.

PySpark – Teil 3: Datenverarbeitung mit Spark SQL

Veröffentlicht am 13.12.2025
ab 49,00 €
im
ESSENTIAL PASS
oder 95,00 € im Einzelkauf
inkl. MwSt. | 79,83 € netto
Preise und Pakete vergleichen

Du hast Fragen zu unseren academy Videokursen? Wir helfen dir gerne weiter.

Fülle ganz einfach und bequem das Kontaktformular aus und wir werden deine Fragen schnellstmöglich beantworten.

Kontaktformular