Datentransformation und Case IDs

Datentransformation und Case IDs
November 21, 2019 Franzi

Der Weg zu gut transformierten Prozessdaten

Der ETL-Prozess – das Extrahieren, Transformieren und Laden von Daten – ist ein essentieller Grundbestandteil jeder Process-Mining-Analyse. Abseits der Tatsache, dass ohne Log-Dateien gar keine Analyse möglich wäre, ist nicht jede Datentransformation auch gleich eine gute Datentransformation. Je gewissenhafter der ETL-Prozess durchgeführt wird, desto effektiver wird letzten Endes auch die Prozessanalyse, denn saubere Daten sorgen für maximale Transparenz.

Allerdings kann dieser technische Vorbereitungsschritt, die Transformation von Daten, durch seine scheinbare Komplexität häufig einschüchternd wirken. Was bedeutet es überhaupt, Daten „gut“ zu transformieren?

Die Datentransformation besitzt viele verschiedene Parameter, auf die man achten sollte. Im Kern steht aber immer die Case ID. Sie ist mit Abstand die wichtigste Kenngröße im gesamten ETL-Vorgang, denn ohne sie lässt sich schlichtweg keinerlei Prozessanalyse durchführen. Präzise Case IDs stellen die wichtigste Basis für gut transformierte Prozessdaten dar.

Process_Mining_Case_ID_Data

 

Was ist eine Case ID?

Die Case ID ist der einzigartige Identifikator eines Falls innerhalb eines Prozesses. (Lesen Sie die vollständige Definition im Process Mining Glossary.) Das bedeutet, dass jedem Fall, der den Prozess durchläuft, vom System eine Kennnummer zugeordnet wird. Ein „Fall“ kann dabei eine Transaktion im Handel, eine Rechnung im Einkauf, ein zu fertigendes Produkt in der Montage oder auch eine Bewerbung im Recruiting sein.

Daraus ergibt sich jedoch auch der Umstand, dass eine Case ID nicht immer ganz offensichtlich zu erkennen ist. Im einen Prozess kann die Case ID eine Kundennummer sein, im anderen wiederum eine Produkt-ID. Hier ist es eine Bestellnummer, dort eine Mitarbeiter-ID. Die korrekte Case ID zu identifizieren ist daher der erste Schritt.

Worauf sollten Sie im Umgang mit Case IDs achten?

Für erfolgreiches Process Mining muss stets eine Case ID vorliegen. Zusammen mit dem Startzeitpunkt und der Aktivitätsbezeichnung bildet die Case ID damit einen der Grundbestandteile jeder Log-Datei. In bestimmten Kontexten kann es jedoch vorkommen, dass eine Case ID nicht eindeutig ist. Eventuell zeigt sich die gleiche ID für mehrere verschiedene Fälle im System, oder ein einzelner Fall besitzt mehrere Case IDs gleichzeitig – oder gar keine. Glücklicherweise gibt es verschiedene Lösungswege für diese Sonderfälle.

Strategisch transformieren. Smart implementieren. Nachhaltig optimieren.

Mit LANA Process Mining haben Sie die volle Kontrolle über Ihre Digitalisierungsstrategie. Wie LANA Ihr Unternehmen schneller, effizienter und smarter macht, erfahren Sie im Gespräch mit unseren Experten.

 

Identische Case IDs zwischen mehreren Fällen

Ein klassisches Beispiel für diesen Fall ist der Verkaufsprozess. Sowohl Kundennummern als auch Produkt-IDs wären gute Kandidaten für die Case ID. Doch was, wenn ein einzelner Kunde nacheinander verschiedene Produkte kauft? Oder wenn ein Produkt von unterschiedlichen Käufern erworben wird? In beiden Fällen taucht die gleiche ID plötzlich in unterschiedlichen Prozessdurchläufen auf.

Die Lösung: Kombinieren Sie die Case ID mit einer weiteren Kennzahl, um eine neue, kleinteiligere ID zu kreieren. Wenn Sie die Kundennummer als Case ID nutzen, kombinieren Sie sie mit der Produktnummer zu einem einzigartigen Identifikator für jeden möglichen Fall.

Ein einzelner Fall mit separaten Case IDs

Eine Bestellung kann mehrere Lieferungen auslösen, beispielsweise wenn nicht alle Positionen derzeit lieferbar sind oder von einem anderen Standort aus geliefert werden. Hier besteht die Gefahr, dass ein Bruch im Prozess entsteht und Analysen schwierig oder gar unmöglich werden.

Aus diesem Grund sollten für die einzelnen Lieferungen Lieferungs-IDs erstellt werden und der ID der Bestellung zugeordnet werden. Es wird somit von der Case-ID, hier die Bestell-ID, auf die Sub-IDs, hier die Lieferungs-IDs, verwiesen. Durch diesen Verweis bleibt die Verbindung zwischen der Bestellung und den Lieferungen vorhanden und der gesamte Prozesse kann analysiert werden. Andersherum kann eine Lieferung mehrere Bestellungen enthalten.

Ein Fall ohne jegliche Case ID

Ob durch einen Systemfehler oder durch unvollständig aufgesetzte Prozessdokumentation, unter bestimmten Umständen kann es passieren, dass einzelne Fälle oder gar ganze Log-Dateien keine verwendbaren Case IDs aufweisen. Wie zuvor bereits erwähnt, ist die Existenz von Case IDs eine Grundvoraussetzung für die Prozessanalyse. Solche Situationen müssen also sofort behoben werden.

Falls sich aus den Rahmenbedingungen des Prozesses keine offensichtlichen Case IDs ergeben, ist die einzige Möglichkeit, selbstständig neue IDs zu generieren. Diese Kennzahlen müssen Sie anschließend den entsprechenden Prozessschritten zuordnen, um Ihre Log-Datei zu vervollständigen.

Es zeigt sich also, dass sich hinter den unscheinbaren Zahlenfolgen äußerst relevante Bausteine für die effektive Prozessanalyse verbergen. Der Umgang mit Case IDs ist nicht immer leicht, doch der Aufwand, Ihre Log-Dateien sauber und einheitlich zu halten, lohnt sich.

Wollen Sie Wissen, wie sie Ihre Daten in’s richtige Process-Mining-Format bringen? Dann kontaktieren Sie uns!