Videokurs

PySpark – Teil 4: Machine Learning mit Spark MLlib

Nutze die leistungsstarke Machine-Learning-Bibliothek von Apache Spark für Prognosen, Klassifikationen und Clusteranalysen

LERNZIELE

Du lernst die lineare Regression in Spark MLlib kennen, um Umsatzprognosen zu erstellen
Du nutzt baumbasierte Lernverfahren, um Kundenabwanderungen vorherzusagen
Du clusterst die Laufzeiten von Marathonläufern mithilfe des Gaussian-Mixture-Modells
Du weißt, wie du die Modellergebnisse interpretierst
Du bist mit den Metriken zur Bewertung der Modellleistung vertraut

INHALT

Der letzte Teil unserer PySpark-Reihe beleuchtet die praktischen Anwendungsmöglichkeiten von Spark MLlib, der Machine-Learning-Bibliothek von Apache Spark. Diese stellt eine Vielzahl von Algorithmen für maschinelles Lernen bereit und ermöglicht das Trainieren von Modellen auf großen Datenmengen – skalierbar und mit nativer Python-Unterstützung.

In drei Praxisprojekten setzen wir Schritt für Schritt typische ML-Aufgaben um. Zunächst erstellen wir eine Umsatzprognose aus Basis einer linearen Regression. Anschließend geht es an die Vorhersage von Kundenabwanderungen mithilfe baumbasierter Verfahren. Zum Abschluss nutzen wir das Gaussian-Mixture-Modell zum Clustering der Laufleistung von Marathonläufern.

Am Anfang der drei Projekte steht die Datenvisualisierung, die es dir erlaubt, Muster zu erkennen und eine Modellauswahl vorzunehmen. Dann geht es an das Aufsetzen und Trainieren der ML-Modelle. Und nicht zuletzt erfährst du, wie du die Vorhersagen der Modelle interpretierst und deren Performance anhand von Metriken bewertest.

Die Reihe zu PySpark umfasst folgende Kurse:

PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation
PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
PySpark – Teil 3: Datenverarbeitung mit Spark SQL
PySpark – Teil 4: Machine Learning mit Spark MLlib

ALLE LEKTIONEN IM ÜBERBLICK

Vorstellung und Infos zum Kurs

Herzlich willkommen zu diesem Kurs

Einführung

Kapitelüberblick
Kurzeinführung in PySpark
Theorie: Überblick über MLlib und seine Komponenten

MLlib-Projekt 1 – Umsatzprognose mithilfe linearer Regression

Kapitelüberblick
Vorstellung der Projektdaten und Vorbereitung
Explorative Datenanalyse mit Spark: Erste Einblicke gewinnen
Zusammenhänge erkennen: Korrelationen und Muster
Verteilungen und Histogramme: Datenstruktur visualisieren
Regression mit Spark MLlib: Setup und Grundlagen
Datenaufteilung: Trainings- und Testdaten korrekt aufteilen
Modelltraining mit Spark MLlib: Umsatz vorhersagen
Modellauswertung: Achsenabschnitt und Regressionskoeffizienten über Regressionsfunktion interpretieren
Modellvorhersagen
Bewertungsmetriken auswerten
Zusammenfassung und Optimierungsvorschläge
Quiz: MLlib-Projekt 1 – Umsatzprognose mithilfe linearer Regression

MLlib-Projekt 2 – Kündigungen vorhersagen mit baumbasierten Lernverfahren

Kapitelüberblick
Vorstellung der Projektdaten und Problemstellung
Vorbereitung und Datenimport
Explorative Datenanalyse: Muster und Auffälligkeiten erkennen
Visualisierung der Kündigungen
Visualisierung der Kundenzufriedenheit
Decision-Tree-Modell: Setup und Grundlagen
Datenaufteilung und Modelltraining
Modellvorhersagen interpretieren und Baumstruktur analysieren
Modellbewertung
Konfusionsmatrix erstellen und interpretieren
Random-Forest-Modell trainieren und evaluieren
Gradient-Boosted-Tree-Modell trainieren und evaluieren
Zusammenfassung und Optimierungsvorschläge
Quiz: MLlib-Projekt 2 – Kündigungen vorhersagen mit baumbasierten Lernverfahren

MLlib-Projekt 3 – Clustering von Marathonathleten mit dem Gaussian-Mixture-Modell

Kapitelüberblick
Vorstellung der Fallstudie
Visualisierung: Regplot, Pairplot und Korrelationsmatrix
Visualisierung: Scatterplot, Boxplot, FacetGrid-Histogramm
Clustering-Modell trainieren
Clusterspalte im DataFrame hinzufügen
Cluster grafisch visualisieren
Quiz: MLlib-Projekt 3 – Clustering von Marathonathleten mit dem Gaussian-Mixture-Modell

Abschluss

Fazit und Kursabschluss

SO LERNST DU MIT DIESEM KURS

In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:

Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
Wissensquiz zur Lernkontrolle
Lernhistorie und Lernfortschritt
Lesezeichen und Notizen
Volltextsuche in den Videos
Übungsmaterial zum Mitmachen
Responsive Web-App und Videostreaming für alle Endgeräte

TECHNISCHE VORAUSSETZUNGEN

Für diesen Videokurs wird lediglich ein aktueller Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

DEIN EXPERTE

Fabio Basler

Data Scientist und Statistik-Trainer | Selbstständig

Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.

Zum Profil

PySpark – Teil 4: Machine Learning mit Spark MLlib

Fabio Basler

02:25h

Veröffentlicht am 22.12.2025

ab 49,00 €

ESSENTIAL PASS

oder 95,00 € im Einzelkauf
inkl. MwSt. | 79,83 € netto

Preise und Pakete vergleichen

PySpark – Teil 4: Machine Learning mit Spark MLlib

Fabio Basler

02:25h

Veröffentlicht am 22.12.2025

ab 49,00 €

ESSENTIAL PASS

oder 95,00 € im Einzelkauf
inkl. MwSt. | 79,83 € netto

Preise und Pakete vergleichen

PySpark – Teil 4: Machine Learning mit Spark MLlib

LERNZIELE

INHALT

ALLE LEKTIONEN IM ÜBERBLICK

SO LERNST DU MIT DIESEM KURS

TECHNISCHE VORAUSSETZUNGEN

DEIN EXPERTE

PySpark – Teil 4: Machine Learning mit Spark MLlib

PySpark – Teil 4: Machine Learning mit Spark MLlib

Du hast Fragen zu unseren academy Videokursen? Wir helfen dir gerne weiter.

heise academy Content-Team

Kontaktformular