Nutze die leistungsstarke Machine-Learning-Bibliothek von Apache Spark für Prognosen, Klassifikationen und Clusteranalysen
Der letzte Teil unserer PySpark-Reihe beleuchtet die praktischen Anwendungsmöglichkeiten von Spark MLlib, der Machine-Learning-Bibliothek von Apache Spark. Diese stellt eine Vielzahl von Algorithmen für maschinelles Lernen bereit und ermöglicht das Trainieren von Modellen auf großen Datenmengen – skalierbar und mit nativer Python-Unterstützung.
In drei Praxisprojekten setzen wir Schritt für Schritt typische ML-Aufgaben um. Zunächst erstellen wir eine Umsatzprognose aus Basis einer linearen Regression. Anschließend geht es an die Vorhersage von Kundenabwanderungen mithilfe baumbasierter Verfahren. Zum Abschluss nutzen wir das Gaussian-Mixture-Modell zum Clustering der Laufleistung von Marathonläufern.
Am Anfang der drei Projekte steht die Datenvisualisierung, die es dir erlaubt, Muster zu erkennen und eine Modellauswahl vorzunehmen. Dann geht es an das Aufsetzen und Trainieren der ML-Modelle. Und nicht zuletzt erfährst du, wie du die Vorhersagen der Modelle interpretierst und deren Performance anhand von Metriken bewertest.
Die Reihe zu PySpark umfasst folgende Kurse:
In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:
Für diesen Videokurs wird lediglich ein aktueller Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.
Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.
Fülle ganz einfach und bequem das Kontaktformular aus und wir werden deine Fragen schnellstmöglich beantworten.