Datentransformation

Datentransformation

Datentransformation

Unter Datentransformation versteht man das Umformen und Angleichen von Datensätzen aneinander oder an ein bestimmtes Schema. Die Datentransformation findet nach der Datenextraktion statt. Dadurch wird die Weiterverarbeitung der Daten gewährleistet, beispielsweise um Datensätze zu integrieren oder in ein anderes IT-System zu laden. Im Process Mining ist die Datentransformation ein Bestandteil des Data Preprocessing.

Warum ist Datentransformation wichtig?

Damit die Daten weiterverarbeitet werden können, beispielsweise in Analysen, ist es wichtig, dass die Daten einheitlich sind, also normiert werden. Unterschiede in den Daten können durch unterschiedliche Quellsysteme, abweichende Tabellenschemata oder auch durch andere Datentypen entstehen. Die Transformation der Daten ist wichtig um Analysen durchzuführen, aber auch damit Relationen zwischen den Daten gewahrt werden und bei der Datenintegration mit übertragen werden. In der Regel werden die Daten entweder aneinander oder an ein bestimmtes Zielformat angeglichen.

Werden die Daten aneinander angeglichen, wird unter den Daten ein Format als Ziel-Format festgelegt. Lediglich die Daten die diesem Schema nicht entsprechen, beispielsweise weil sie aus einer anderen Datenquelle stammen, müssen an dieses Format angepasst werden.

Ist jedoch ein spezifisches Schema notwendig, beispielsweise durch Limitationen einer Datenbank oder einer Analysesoftware, sind alle Daten entsprechend dem vorgegebenen Ziel-Format zu transformieren. Es wird also in jedem Fall an ein Ziel-Format angeglichen.

Wie werden die Daten transformiert?

Um die Daten zu transformieren muss in der Regel zunächst eine Datenextraktion durchgeführt werden. Ausnahme sind Daten, die in Datenbanksystemen gehalten werden. Diese können durch bestimmte Instruktionen, beispielsweise durch SQL-Befehle, direkt in der Datenbank transformiert werden.

Nach der Extraktion der Daten ist  ein Zielformat bzw. Zielschema zu definieren, in welches die Daten umgeformt werden sollen. Bei der Konvertierung von Daten ist es notwendig die Spezifikationen des Ausgangsformats sowie des Zielformats zu kennen, um das eine in das andere überführen zu können. Über festgelegte Definitionen und Zuordnungen werden die Daten der Ausgangsdatei umgeformt und bestimmten Werten zugeordnet, sodass sie anschließend dem Zielformat entsprechen. Diese umgeformte Werte- bzw. Zeichenfolge wird dann als neue Datei, der konvertierten Ergebnisdatei, gespeichert.

Darüber hinaus ist zu entscheiden wie mit leeren Werten umgegangen werden soll. Leere Werte treten beispielsweise dann auf, wenn ein Objekt ein bestimmtes Attribut nicht besitzt, es also keinen Eintrag für dieses Attribut gibt. Man muss entscheiden, ob der Wert für solche Attribute leer oder “NULL” sein soll. Wie mit solchen Werten umgegangen wird hängt vom Transformationsziel bzw. dem Zielsystem ab. In Datenbanken sollte man beispielsweise eher “NULL”-Werte eintragen, da es mit Leerwerten zu Fehlern bei der Transformation oder im Nachgang mit den Auswertungen geben kann.

Die Schritte einer Datentransformation sind also folgende:

1. Datenextraktion

2. Evaluieren des benötigten Formats

3. Definieren des Zielformats

4. Konvertierung der extrahierten Daten

5. Speichern der konvertierten Daten in eine neue Datei

 

Verwandte Begriffe: ETL, Process Mining, Datenextraktion, Data Preprocessing