Datenextraktion

Datenextraktion

Datenextraktion

Datenextraktion beschreibt die Entnahme von Daten aus einem System. Im Kontext des Process Mining bedeutet das, dass Event-Daten aus einem IT-System entnommen werden, um anschließend eine Datentransformation durchzuführen und so diese Daten für Analysen nutzen zu können.

Was gibt es für Extraktionsmethoden?

Für die Extraktion von Daten gibt es unterschiedliche Methoden, je nachdem, um welches IT-System es sich handelt oder welches Datenformat benötigt wird. Aus einigen Systemen, wie beispielsweise SAP ERP 4.0, können die Daten einfach per Knopfdruck in ein beliebiges Dateiformat, zum Beispiel als CSV-Dateien, exportiert werden. Bei anderen Programmen ist es notwendig, dessen API (Application Programming Interface) anzusprechen. Hierbei erfolgt die Datenanbindung auf Ebene des Quellcodes. Eine API kann beispielsweise ein JDBC (Java Database Connectivity), ein Protokoll oder eine webbasierte Schnittstelle wie REST sein. Wird ein REST-API angesprochen, sind die Ausgabeformate oftmals eine oder mehrere JSON-Dateien oder aber Dateien im XML-Format. Doch die APIs der Programme unterscheiden sich oft in Datenstruktur, Formaten, Objekten, Variablen und Remote Calls voneinander, sodass sie spezifisch angesprochen werden müssen. Informationen über die genannten Unterschiede erhält man in der Regel aus der Dokumentation der API.

Wie läuft eine Datenextraktion ab?

Wie die Datenextraktion abläuft, hängt grundsätzlich von der Wahl der Extraktionsmethode ab.
Wird ein manueller Datenexport über eine grafische Oberfläche durchgeführt, müssen lediglich die benötigten Daten, Tabellen oder ähnliches ausgewählt und exportiert werden.

Werden die Daten jedoch über die API des Programms exportiert, dann sieht der Ablauf in der Regel wie folgt aus:

1. Evaluation der Formate, Datenstruktur, Objekte, Variablen und Remote Calls der API
2. Abfrage der API nach den benötigten Daten
3. Speichern der Antwortdaten im gewünschten Format

All die genannten Schritte werden in der Regel mit einem Abfrageskript oder -workflow abgebildet. Anschließend an die Datenextraktion wird bei Bedarf eine Datentransformation durchgeführt.

 

Verwandte Begriffe: ETL, Process Mining, Datentransformation