Datenextraktion
Erscheinungsbild
Unter Datenextraktion versteht man die automatische oder manuelle Filterung von strukturierten oder unstrukturierten Daten aus unterschiedlichen Quellen (Datenmengen) nach relevanten Informationen für die weitere Datenverarbeitung, Analyse oder Speicherung. Dabei werden diese Datenquellen in ein nutzbares Format überführt.
Der Begriff wird häufig verwendend wenn es darum geht Rohdaten aus Primärdatenquellen (zum Beispiel von Mess- oder Aufnahmegeräten) mit einem Computer digital zu verarbeiten.
Anwendungsbereiche
[Bearbeiten | Quelltext bearbeiten]Eine Datenextraktion finden unter anderem in folgenden Anwendungen statt:
- ETL-Prozesse in Data Warehouses
- Web-Scraping (Es werden Daten aus über das Internet ausgelesen)
- Texterkennung aus Bildern / Scans
- Dokumentenanalyse (Informationsgewinnung aus z.B. PDF Dateien)
Datenquellen
[Bearbeiten | Quelltext bearbeiten]Die Rohdatenquellen können Daten je nach Anwendungsfall in beliebigen Format enthalten. Typisch sind zum Beispiel Daten aus Datenbanken, Websites, E-Mails, Messwerten usw.