11.03.2022

Entwicklung eines DWH für die Controlling-Abteilung der MAN Motorenwerke AG

Sechs Studierende des Studiengangs Wirtschaftsinformatik der Hochschule Hannover entwickeln in Kooperation mit Dörffler & Partner GmbH ein Data Warehouse, um ein flexibles Reporting der Kostenentwicklung für verschiedene Motorvarianten der MAN Motorenwerke AG zu ermöglichen.

Abbildung 1 - Beispiel eines komplexen Schiffsmotors der MAN Motorenwerke

 (Quelle: www.engines.man.eu/global/de/marine/motoren-fuer-die-berufsschifffahrt/uebersicht/Uebersicht.html)

Für die Auswertungen zu den zahlreichen Motorenvarianten werden Rohdaten in Form von zwei CSV-Listen benötigt. Eine der Listen beinhaltet die Kosten der einzelnen Bauteile und die andere Liste enthält die Zusammensetzung jener Bauteile. Derzeit müssen die Controller für eine Auswertung diese beiden Listen manuell in Excel zusammensetzen. Um den Prozess der Reporterstellung zu automatisieren, soll ein Data Warehouse (DWH) für den Bereich des Controllings als Lösung aufgebaut werden. Unter der Betreuung von Prof. Dr. Stephan König beschäftigen sich die Studierenden ein Semester lang mit dieser Aufgabe. Als Datenquellen des DWH stehen die zwei genannten CSV-Listen als Schnittstellen zur Verfügung. Ein Data Warehouse integriert die Daten verschiedener Quellsysteme miteinander und liefert dadurch eine neue große Datenbank, welche im Unternehmen für Analysen genutzt werden soll.  Bei der Speicherung dieser Daten soll ihre zeitliche Entwicklung in dem DWH möglichst speichersparend festgehalten werden.

Auf Basis des DWH sollen im Rahmen des Projektes zunächst folgende vier Reports abgebildet werden:

  1. Der Abruf aller Datensätze zu einem bestimmten Datum.
  2. Der Vergleich zweier (Kosten-) Zustände von Motoren oder Bauteilen, abhängig vom Datum.
  3. Die Anzeige des Kostenverlaufs von einem Motor oder Bauteil in einem bestimmten Zeitraum.
  4. Die Filterung und Anzeige fehlerhafter Daten für die Prüfung der Datenqualität des DWHs.

Das DWH besteht aus 2 Schichten (Stage Area & Data Mart). Üblicherweise gibt es eine Core-Schicht, die in unserem Fall nicht nötig ist, da die Funktionalität des Cores in der Stage Area zu finden ist. Dessen Hauptaufgabe ist es normalerweise, die Daten im DWH dauerhaft und effizient abzuspeichern. Zunächst werden die Rohdaten mithilfe des ,,Bulk Copy Programm” (bcp) unverändert in die Stage Area, genauer in die Replikation Schicht geladen. Nach dem Überprüfen der Daten werden sie mittels Transact Sequence Query Language (T-SQL) dauerhaft in der Persistent Stage Area (PSA) gespeichert. Bei T-SQL handelt es sich um eine Erweiterung der Datenbanksprache SQL.
In der PSA findet man 6 Tabellen vor, um das doppelte Abspeichern der Daten zu vermeiden.
Im nächsten Schritt werden alle Tabellen in der Data-Mart Schicht zusammengesetzt, sodass es für das Reporting einfacher ist, auf die Daten zuzugreifen. Für die Auswertung kommt Excel zum Einsatz, da dies schon in der Praxis verwendet wird. Mit Power Query ist Excel in der Lage sich mit der Tabelle zu verbinden, um so die Daten in dem Tool zu visualisieren.

Eine besondere Herausforderung für die Studierenden stellt bei dem Projekt die agile Vorgehensweise, sowie die Zusammenarbeit mit einem externen Partner dar. Darüber hinaus werden einige im Studium vermittelte Inhalte des Data Warehousing (Konzeptionierung, SQL-Abfragen und ETL-Prozesse) erstmalig praktisch angewandt.

Abbildung 2 - Data Warehouse Architektur
Abbildung 2 - Data Warehouse Architektur