Du suchst deine bereits erworbenen Lerninhalte? Dann geht es hier entlang: Zum academy Campus
Im zweiten Teil unserer 4-teiligen Kursreihe zu Big Data mit PySpark zeigen wir, wie sich Daten effizient mit DataFrames verarbeiten und analysieren lassen. Der Data-Science-Experte Fabio
Basler zeigt in seinem Videokurs alle Inhalte praxisnah und Schritt für Schritt. Das
neu erworbene Wissen lässt sich durch direktes Mitmachen in
Übungsaufgaben und Quizfragen überprüfen und festigen.
Flexible IT Weiterbildung on demand, schon als monatliches Abo erhältlich
PySpark bietet eine Schnittstelle für die Nutzung von Apache Spark in Python. Es vereint die Performanz von Apache Spark mit der Flexibilität von Python und erleichtert damit die Abfrage, Verarbeitung und Auswertung großer Datenmengen.
Im zweiten Teil unserer PySpark-Reihe widmen wir uns der Datenverarbeitung mit DataFrames. Zunächst lernst du, wie du DataFrames erstellst und Schemas definierst und worin sich Spark- und Pandas-DataFrames unterscheiden. Danach setzt du zentrale Operationen wie Selektionen, Berechnungen, Filterungen und Sortierungen praktisch um.
Schritt für Schritt erweiterst du anschließend dein Wissen um fortgeschrittene Techniken – von Spaltenbearbeitung, Aggregationen und Gruppierungen über Pivot-Operationen bis hin zu Text-, Datums- und Zeitfunktionen. Zum Schluss erfährst du, wie du DataFrames über Joins oder Mengenoperationen kombinierst und Window-Funktionen für komplexe Analysen nutzt.
Während des gesamten Kurses arbeitest du mit vorbereiteten Beispieldaten und kannst somit das Gelernte direkt in praktische Anwendung überführen und in Übungsaufgaben festigen.
Die Kursreihe zu PySpark umfasst folgende Teile:
PySpark – Teil 3: Datenverarbeitung mit Spark SQL (erscheint in Kürze)
PySpark – Teil 4: Machine Learning mit Spark MLlib (erscheint in Kürze)
Klicken zum Abspielen
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Herzlich willkommen zu diesem Kurs
Kapitelüberblick
Kurzeinführung in PySpark
Kapitelüberblick
Vorstellung der Projektdaten und Problemstellungen
Erstellung von PySpark DataFrames
Datentypen definieren per Spark-Schema
DataFrames: Spark vs. Pandas
Grundlegende DataFrame-Operationen mit select()
Spalten berechnen: Umsatz aus Verkaufsmenge und Preis
Einfache Filterungen mit kategorischen und numerischen Filtern
Sortieren und Ordnen von Datensätzen mit orderBy()
Filterungen und Operatoren
Erweiterte Filterungen mit isin, between und like
Aufgabe: Filterungen und Sortierungen
Lösung: Filterungen und Sortierungen
Quiz: Datenverarbeitung mit PySpark DataFrames
Kapitelüberblick
Spalten bearbeiten, Elemente umbenennen, hinzufügen und löschen
Bedingte Spalten berechnen
Aggregationen: Datenbestände zusammenfassen
Gruppierungen und Aggregationen mit groupBy
Gruppierungen nach mehreren Kategorien oder Aggregationen
Filterungen bei Gruppierungen
Pivot-Operationen
Aufgabe: Spaltenbearbeitung und Gruppierungen
Lösung: Spaltenbearbeitung und Gruppierungen
Textfunktionen
Umgang mit fehlenden Daten
Arbeiten mit Datums- und Zeitfunktionen
Kombinieren und Joins von DataFrames
Operationen mit union, intersect, und except
Window-Funktionen in PySpark
Aufgabe: Fortgeschrittene DataFrame-Operationen
Lösung: Fortgeschrittene DataFrame-Operationen
Quiz: Erweiterte DataFrame-Operationen und Optimierungen
Fazit und Kursabschluss
In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:
Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
Wissensquiz zur Lernkontrolle
Lernhistorie und Lernfortschritt
Lesezeichen und Notizen
Volltextsuche in den Videos
Frage-den-Experten-Modul
Übungsmaterial zum Mitmachen
Responsive Web-App und Videostreaming für alle Endgeräte
Für diesen Videokurs werden lediglich ein Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.
Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.
Füllen Sie ganz einfach und bequem das Kontaktformular aus und wir werden Ihnen Ihre Fragen schnellstmöglich beantworten.
Telefonisch erreichbar: Mo – Fr | 8.30 – 16 Uhr

