Zum Campus
Videokurs

Datenbeschaffung und -transformation für Natural Language Processing

Lerne, wie du Texte akquirieren, extrahieren und in eine Datenbank übernehmen kannst, um an ihnen linguistische Analysen durchzuführen

LERNZIELE

  • Du weißt, wie du Text akquirieren und extrahieren kannst
  • Du lernst, wie man Webseiten aus dem Internet herunterlädt
  • Du extrahierst Daten aus Webseiten und Office- oder PDF-Dokumenten
  • Du übernimmst extrahierte Daten in eine Datenbank
  • Du kannst linguistische Analysen durchführen und Landessprachen erkennen

INHALT

In diesem Kurs geht es um Datenextraktion. Zunächst laden wir gemeinsam HTML-Seiten aus dem Internet herunter und extrahieren daraus strukturierte Informationen. Da es aber nicht nur HTML-Seiten gibt, sondern im Unternehmenskontext häufig auch Office- oder PDF-Dokumente zum Einsatz kommen, konzentrieren wir uns anschließend auf die Extraktion der Inhalte aus den Dokumentformaten. Die extrahierten Inhalte werden anschließend in der Datenbank persistiert, sodass du leichter darauf zugreifen kannst. Anschließend arbeiten wir mit einem konkreten Praxisbeispiel, um das Gelernte in Aktion zu erleben. Darüber hinaus bereinigen wir die Daten zur späteren Verwendung. Schließlich nutzt du SpaCy, ein Tool zur linguistischen Analyse, um die Texte weiter zu annotieren, zu verstehen, die einzelnen Wortarten zu begreifen, die Satzstruktur zu analysieren und alle möglichen Sprach-Features zu erkennen.

Dieser Kurs gehört zu einer Reihe mit folgenden Titeln:

  • Python und Jupyter als Plattform für Natural Language Processing
  • Datenbeschaffung und -transformation für Natural Language Processing
  • Statistik und Vektorisierung für NLP-Projekte
  • Klassische Machine-Learning-Verfahren zur Textanalyse
  • Moderne Embedding-Methoden und Transfer Learning

ALLE LEKTIONEN IM ÜBERBLICK

Akquirieren und Extrahieren der Daten
  • Intro
  • Daten finden
  • Einzelne Dateien herunterladen
  • Unterschiedliche Dateiformate
  • Struktur von HTML-Inhalten
  • Extraktion von HTML-Inhalten
  • Persistieren von Inhalten
  • Praxis: URLs generieren und herunterladen
  • Praxis: Dateien herunterladen und extrahieren
  • Quiz: Akquirieren und Extrahieren der Daten
Vorbereiten der Daten
  • Intro
  • Data Cleaning
  • Erklärung Tokenisierung
  • Tokenisierung mit regexp
  • Tokenisierung mit nltk und spaCy
  • Bestimmung von Landessprachen
  • Linguistische Analyse (Part-of-speech)
  • Bestimmung von Wortarten
  • Dependency Tree
  • Named Entity Recognition
  • Quiz: Vorbereiten der Daten

SO LERNST DU MIT DIESEM KURS

In den Videokursen der heise academy lernst du IT-Themen anschaulich und verständlich. Du siehst den Experten bei der praktischen Arbeit zu und lässt dir dabei alles genau erklären. Das Wissen ist in kompakte Lerneinheiten unterteilt, sodass du den Kurs Schritt für Schritt durcharbeiten oder gezielt zu Lektionen springen kannst, die dich interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für dich bereit, die dich beim Lernen unterstützen:

  • Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
  • Wissensquiz zur Lernkontrolle
  • Lernhistorie und Lernfortschritt
  • Lesezeichen und Notizen
  • Volltextsuche in den Videos
  • Übungsmaterial zum Mitmachen
  • Responsive Web-App und Videostreaming für alle Endgeräte

TECHNISCHE VORAUSSETZUNGEN

Für diesen Videokurs wird lediglich ein aktueller Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

DEIN EXPERTE

Prof. Dr. Christian Winkler
Gründer von datanizing und Professor für User Experience | datanizing GmbH

Prof. Dr. Christian Winkler ist Co-Gründer der datanizing GmbH und beschäftigt sich seit 20 Jahren mit künstlicher Intelligenz, speziell mit der automatisierten Analyse natürlich-sprachiger Texte (Natural Language Processing). Er forscht und publiziert zu diesem Thema und ist regelmäßig Sprecher auf Machine-Learning-Konferenzen. Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren.

Datenbeschaffung und -transformation für Natural Language Processing

Veröffentlicht am 13.12.2025
ab 49,00 €
im
ESSENTIAL PASS
Preise und Pakete vergleichen

Du hast Fragen zu unseren academy Videokursen? Wir helfen dir gerne weiter.

Fülle ganz einfach und bequem das Kontaktformular aus und wir werden deine Fragen schnellstmöglich beantworten.

Kontaktformular