Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Preprocessing beschreibt die Vorbereitung der Daten für die Analyse. Diese Vorbereitung besteht aus vier Kernaktivitäten:

• Data Cleaning – Vervollständigen der Daten, zum Beispiel fehlende Werte nachtragen
• Data Transformation – Datenmodifizierung / Datenanpassung, z. B. Daten normalisieren oder Daten aggregieren
• Data Integration – Integration verschiedener Datensets
• Data Reduction – Reduzierung des Datenumfangs, zum Beispiel durch das Reduzieren der Dimensionen oder das Komprimieren von Daten

Diese Operationen finden nach der Datenextraktion statt, bei welcher die Daten aus einem System entnommen wurden.

Wie läuft der Data Preprocessing ab und warum ist Data Preprocessing so wichtig?

Wenn unsinnige oder fehlende Daten vorhanden sind, ist das Gesamtbild der Daten verzerrt. Dies würde zu unsinnigen oder gar verfälschten Ergebnissen bei der weiteren Analyse führen. Deshalb werden während des Data Cleaning unvollständige, falsche und irrelevante Daten identifiziert. Im weiteren Schritt werde diese ersetzt, durch verschiedene Arten modifiziert oder vom Datensatz gelöscht.

Bei der Datentransformation werden Normalisierungen und Aggregationen durchgeführt, um bei gegebenen Analyse Zielen die Datensätze aussagekräftiger zu machen. So können zum Beispiel bei Aggregationen spätere Visualisierungen der Daten sinnvoller und bedeutungsvoller gestaltet werden.

Außerdem dient dieser Schritt dazu Daten aus unterschiedlichen Quellen anzugleichen und Einheiten und Datenschemata zu vereinheitlichen. Datentransformation ist auch ein wichtiger Bestandteil des ETL-Prozesses.

Nach der Datentransformation können verschiedene Datensätze miteinander verknüpft werden, um am Ende ein einheitliches Bild auf eine Analysefrage zu bekommen. Die Voraussetzung hierfür ist die einheitliche Grundlage der Daten nach der Transformation. Dies kann dann zum Beispiel über ein gemeinsames Attribute (z. B. ID) geschehen.

Am Ende werden unnötige und unwichtige Daten aus dem Datensatz entfernt. Dies geschieht zum Einen um die Berechnungen effizienter zu machen und zum Anderen Störfaktoren zu entfernen, die das Ergebnis verzerren könnten.

Bei Schritten, die ein Entfernen oder Modifizieren von Daten beinhalten, muss das im Vorfeld mit den jeweiligen Fachbereichen abgestimmt werden. Denn bei willkürlichem Modifizieren oder Entfernen kann es genauso zu Verzerrungen kommen, wie bei Ignorieren dieser Störfaktoren.

 

Verwandte Begriffe: ETL, Process Mining, Datentransformation, Datenextraktion