Logo der Universität Passau

Text- und Data-Mining

Was ist Text- und Data-Mining?

Unter den Begriffen Text- und Data-Mining (TDM) werden verschiedene Forschungsmethoden zusammengefasst.  Beim Data Mining liegt der Fokus auf Daten, die in der Regel bereits strukturiert vorliegen. Beim Text Mining liegt der Fokus auf textuellen Daten, also z. B. auf Volltexten aus wissenschaftlichen Zeitschriften oder der gesamten Romanproduktion eines Jahrhunderts.

Diese Datenmengen und Textsammlungen werden zunächst systematisch und maschinenlesbar aufbereitet, um anschließend mittels computergestützter Analysen automatisiert Muster oder Zusammenhänge zu erkennen oder z. B. größere Dokumentenmengen mit ihren zentralen Aussagen zusammenfassen.

Schnellcheck:

Das Text- und Datamining ist für Forschende seit der Novelle des Urheberrechtsgesetzes (UrhG) im Jahr 2018 mit § 60d UrhG gesetzlich erlaubt. Zu beachten sind jedoch weiterhin gesetzliche und lizenzrechtliche Vorgaben.

Das Recht zum TDM umfasst hierfür auch die Speicherung und Bearbeitung der Daten und Texte für die Analyse sowie die dafür notwendige Digitalisierung, Normalisierung, Strukturierung, Kategorisierung, Annotation, Kombination etc. Das zugrundeliegende Korpus darf wiederum nach Abschluss der Forschung zur Sicherung und Qualitätsprüfung zur dauerhaften Aufbewahrung (siehe auch Forschungsdatenmanagement) übergeben werden.

Auch wenn TDM grundsätzlich erlaubt sind, gibt es bestimmte Grenzen:

  • Der Forschungszweck darf ausschließlich nicht-kommerziellen Zwecken dienen.
  • Der legale Zugang zu den Daten muss gegeben sein (Lizenzvereinbarung oder  Open-Access-Publikationen).
  • Es darf kein bestehender Kopierschutz umgangen werden.
  • Viele Lizenzgeber verbieten außerdem das automatisierte, massenhafte Herunterladen von PDF-Dateien via Crawler, Script, Bot etc.

Da ein derartiger Massendownload zur Sperrung des Verlagsangebots für die ganze Universität führen kann, informieren Sie sich bitte im Vorfeld über alternative Schnittstellen und nehmen Sie Kontakt mit dem Verlag oder mit uns über ub-publizieren@uni-passau.de auf.

Die DOI-Registrierungsstelle Crossref sowie einige Verlage bieten besondere Schnittstellen an, wo Sie Volltexte für Ihre TDM-Vorhaben erhalten:

Neben den Inhalten, die eine Lizenzierung erfordern, gibt es auch frei zugängliche Datenbanken, die den Einsatz von TDM erlauben, u. a.:

Ich bin damit einverstanden, dass beim Abspielen des Videos eine Verbindung zum Server von Vimeo hergestellt wird und dabei personenbezogenen Daten (z.B. Ihre IP-Adresse) übermittelt werden.
Ich bin damit einverstanden, dass beim Abspielen des Videos eine Verbindung zum Server von YouTube hergestellt wird und dabei personenbezogenen Daten (z.B. Ihre IP-Adresse) übermittelt werden.
Video anzeigen