22.06.2022

Leicht gemacht oder hohe Kunst: Aufbau einer einheitlichen Datenstruktur nach Unternehmensübernahme

Ein Team von sieben Studierenden erhielt im Rahmen des Moduls „BI Projekt“ aus dem 6. Semester des Studiengangs Wirtschaftsinformatik einen Auftrag von dem Beratungsunternehmen Capgemini Deutschland GmbH.

Dieser Auftrag umfasst die Zusammenführung und Vereinheitlichung der in den Datenbanken vorhandenen Datenbestände zweier fiktiver Unternehmen.

Die Übernahme betrifft den fiktiven Lebensmitteleinzelhändler E*, der von einem anderen fiktiven Lebensmitteleinzelhändler L* übernommen wird. Bis Mitte 2021 sollten nur zwei Märkte übernommen werden. Im Oktober 2021 wurde bekannt, dass L* 15 bis 20 weitere Filialen seines Konkurrenten E* übernehmen wird. Anfang des Jahres könnte L* insgesamt 115 Filialen von E* übernehmen.

Die beiden Einzelhandelsketten haben über die Jahre hinweg vollkommen unterschiedliche Datenmodelle und -strukturen in ihren Unternehmen etabliert. Die Aufgabe des studentischen Teams ist es, diese verschiedenen Datenmodelle und -strukturen in einem neuen Modell zu vereinigen. Ferner ist das übergreifende Ziel, auf diesem neuen Modell hochqualitative Dashboards in Microsoft PowerBI für Analysen aufzubauen.         

Dieses Vorhaben birgt jedoch Herausforderungen für das Team. Einerseits wurde es mit bisher unbekannten Dateiformaten konfrontiert, beispielsweise mit hierarchischen JSON-Dateien. Aus diesen müssen die benötigten Informationen erst extrahiert werden. Andererseits muss eine Vielzahl von Entscheidungen getroffen werden, wie die Daten bestmöglich zusammengeführt werden. E* speichert beispielsweise den Namen in zwei Attributen [first_name] und [last_name], L* hingegen speichert beides in dem Attribut [name]. Nun muss beispielsweise eine automatisierte Möglichkeit gefunden werden, die Namen zu trennen. Was soll der Algorithmus aber mit Klaus B. Meyer machen?

Das Team entschied sich, diese Harmonisierung in einem sogenannten Data Warehouse durchzuführen. Ein Data Warehouse ist eine besondere Architektur, um Daten zu verarbeiten und zu speichern. Auf diese besondere Architektur wird im Folgenden näher eingegangen und zum besseren Verständnis eine Analogie zu einem Supermarkt aufgebaut. Dass in der Analogie ein Supermarkt verwendet wird, ist rein zufällig und hat keinen direkten Bezug zu den Lebensmitteleinzelhändlern L* und E*.

Insgesamt besteht ein Data Warehouse aus vier Schichten: der Staging und Cleansing Area, dem Core und den Data Marts.

In der Staging Area kommen die Daten unverändert an. Dies ist zu vergleichen mit der Anlieferungszone eines Supermarktes, in der gerade eine Lieferung ankommt. Danach gelangen die Daten in die Cleansing Area, den Kommissionierungsbereich. Dort wird eine Qualitätskontrolle der Lieferung durchgeführt und sie gegebenenfalls umstrukturiert. Nach der Cleansing Area erfolgt ein Laden in das Herzstück eines jeden Data Warehouses: den Core. Dieser ist zu vergleichen mit einem Hochregallager. Dort haben alle Waren ihren festen Platz und sind jederzeit auffindbar. Die letzte Schicht sind die sogenannten Data Marts. Zu vergleichen sind diese mit den einzelnen Ständen im Markt, die immer nur eine bestimmte Auswahl der Produkte anbieten. (Vgl. Schnider 2016: S. 6ff.)

Ein Dashboard bereitet die Daten, die die Data Marts zur Verfügung stellen, grafisch auf, sodass die Informationen benutzerfreundlich aufbereitet sind. Diese können in verschiedenen Abteilungen im Unternehmen zur Entscheidungsfindung genutzt werden. Mit dem Aufbau von Dashboards, die den Anforderungen des Auftraggebers entsprechen, endet das Studierendenprojekt.

Abschließend lässt sich sagen, dass das fünfmonatige Projekt für die Studierenden nicht nur fachlich eine herausfordernde Aufgabe ist. Erstmalig arbeiten die Studierenden zusammen in einem Projektteam und können erste praktische Erfahrungen im agilen Projektmanagement sammeln.

Data Warehous

Quellen:

Schnider, Dani/Claus Jordan/Peter Welker/Joachim Wehner (2016): Data Warehouse Blueprints: Business Intelligence in der Praxis, München: Carl Hanser Verlag GmbH & Co. KG.