Ob Sie nur allgemeine Informationen zu LANA Process Mining suchen,  bereits mit einem Testzugang starten wollen oder gar ein Pilotprojekt mit LANA planen – wir freuen uns über den Kontakt mit Ihnen.

Wählen Sie im Formular einfach Ihr entsprechendes Anliegen aus und wir melden uns schnellstmöglich bei Ihnen. Je mehr konkrete Informationen Sie uns bereits zu Ihren Prozessen geben können, desto besser!

Suchen Sie stattdessen nach einer praktischen Produkt-Demonstration? Oder wollen Sie Teil unseres Partnernetzwerks werden? Zögern Sie nicht, mit uns in Kontakt zu treten!

Sie haben Fragen, die Sie direkt telefonisch klären möchten?

Rufen Sie uns gerne an!

+49 30 23356596

Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Preprocessing beschreibt die Vorbereitung der Daten für die Analyse. Diese Vorbereitung besteht aus vier Kernaktivitäten:

• Data Cleaning – Vervollständigen der Daten, zum Beispiel fehlende Werte nachtragen
• Data Transformation – Datenmodifizierung / Datenanpassung, z. B. Daten normalisieren oder Daten aggregieren
• Data Integration – Integration verschiedener Datensets
• Data Reduction – Reduzierung des Datenumfangs, zum Beispiel durch das Reduzieren der Dimensionen oder das Komprimieren von Daten

Diese Operationen finden nach der Datenextraktion statt, bei welcher die Daten aus einem System entnommen wurden.

Wie läuft der Data Preprocessing ab und warum ist Data Preprocessing so wichtig?

Wenn unsinnige oder fehlende Daten vorhanden sind, ist das Gesamtbild der Daten verzerrt. Dies würde zu unsinnigen oder gar verfälschten Ergebnissen bei der weiteren Analyse führen. Deshalb werden während des Data Cleaning unvollständige, falsche und irrelevante Daten identifiziert. Im weiteren Schritt werde diese ersetzt, durch verschiedene Arten modifiziert oder vom Datensatz gelöscht.

Bei der Datentransformation werden Normalisierungen und Aggregationen durchgeführt, um bei gegebenen Analyse Zielen die Datensätze aussagekräftiger zu machen. So können zum Beispiel bei Aggregationen spätere Visualisierungen der Daten sinnvoller und bedeutungsvoller gestaltet werden.

Außerdem dient dieser Schritt dazu Daten aus unterschiedlichen Quellen anzugleichen und Einheiten und Datenschemata zu vereinheitlichen. Datentransformation ist auch ein wichtiger Bestandteil des ETL-Prozesses.

Nach der Datentransformation können verschiedene Datensätze miteinander verknüpft werden, um am Ende ein einheitliches Bild auf eine Analysefrage zu bekommen. Die Voraussetzung hierfür ist die einheitliche Grundlage der Daten nach der Transformation. Dies kann dann zum Beispiel über ein gemeinsames Attribute (z. B. ID) geschehen.

Am Ende werden unnötige und unwichtige Daten aus dem Datensatz entfernt. Dies geschieht zum Einen um die Berechnungen effizienter zu machen und zum Anderen Störfaktoren zu entfernen, die das Ergebnis verzerren könnten.

Bei Schritten, die ein Entfernen oder Modifizieren von Daten beinhalten, muss das im Vorfeld mit den jeweiligen Fachbereichen abgestimmt werden. Denn bei willkürlichem Modifizieren oder Entfernen kann es genauso zu Verzerrungen kommen, wie bei Ignorieren dieser Störfaktoren.

 

Verwandte Begriffe: ETL, Process Mining, Datentransformation, Datenextraktion