01.04.2026

Entwicklung einer modernen Datenplattform für Scalefree

Im Rahmen eines Projekts an der Hochschule Hannover haben acht Studierende des Schwerpunktes Business Intelligence im Bachelor Studiengang Wirtschaftsinformatik (BIS) der Fakultät IV ein Semester lang daran gearbeitet, eine moderne Datenplattform – ein sogenanntes Data Lakehouse – aufzubauen.

Ein Data Lakehouse ist eine Art zentrale Datensammlung, in der große Mengen unterschiedlichster Daten gespeichert und ausgewertet werden können.

Das Ziel war, für das Unternehmen Scalefree eine funktionsfähige Demo-Umgebung zu entwickeln. Diese soll zeigen, wie moderne Datenlösungen heute aussehen können und welchen Nutzen sie für Unternehmen haben.

Worum ging es im Projekt?

Die Studierenden wollten herausfinden, wie man aktuelle Technologien so kombiniert, dass eine flexible, skalierbare und zukunftssichere Datenplattform entsteht. Dazu gehörten unter anderem:

  • Databricks – eine Plattform, auf der Daten verarbeitet und analysiert werden können
  • Delta Lake – ein Speichersystem, das Daten zuverlässig verwaltet und Versionen speichert (ähnlich wie bei „Änderungsverläufen“)
  • dbt – ein Programm, mit dem Daten strukturiert aufbereitet werden
  • dlt (data load tool) – ein Programm, das Daten automatisch lädt und verarbeitet

Im Mittelpunkt stand die Frage: Wie lassen sich Daten aus verschiedenen Quellen automatisch sammeln, aufbereiten und für Analysen bereitstellen – ohne komplizierte, veraltete Prozesse?

Was wurde technisch umgesetzt?

Für das Projekt wurden öffentliche Datensätze der Stadt New York genutzt, zum Beispiel:

  • der NYC Tree Census (Baumbestand in New York)
  • 311-Service-Anfragen (Meldungen von Bürgerinnen und Bürgern)
  • der Squirrel Census (Zählung von Eichhörnchen im Central Park)

Diese Daten wurden mithilfe von dlt automatisch aus dem Internet geladen. Das Tool übernimmt dabei Aufgaben wie:

  • Erkennen der Datenstruktur
  • Aufteilen großer Datenmengen in handliche Stücke
  • Fehlerbehandlung
  • Schrittweises Aktualisieren der Daten

Anschließend wurden die Daten in Databricks weiterverarbeitet und mit dbt in ein sauberes, nachvollziehbares Datenmodell überführt.

Zum Schluss wurden die Ergebnisse in interaktiven Dashboards visualisiert. So lassen sich typische Fragen beantworten, etwa:

  • Wie entwickeln sich bestimmte Trends?
  • Wo treten bestimmte Ereignisse besonders häufig auf?
  • Gibt es Muster in bestimmten Stadtteilen?

Wie sieht die Architektur aus?

Das beigefügte Architekturdiagramm zeigt den gesamten Ablauf:

  1. Datenaufnahme: dlt lädt die Rohdaten in den Data Lake.
  2. Datenaufbereitung: In Databricks werden die Daten bereinigt, angereichert und modelliert.
  3. Bereitstellung: Die fertigen Daten werden als Delta-Tabellen gespeichert.
  4. Analyse: Dashboards greifen auf diese Daten zu und ermöglichen eine intuitive Auswertung.

Damit bildet die Architektur den kompletten Weg der Daten ab – vom ersten Einlesen bis zur fertigen Analyse.

Lern- und Projektkontext

Lern- und Projektkontext

Für die Studierenden stellte das Projekt eine anspruchsvolle Aufgabe dar, da sie erstmals gemeinsam in einem größeren Projektteam arbeiteten und moderne Technologien wie Databricks, dlt und dbt eigenständig erlernen und anwenden mussten. Gleichzeitig bot das Projekt die Möglichkeit, praktische Erfahrungen im agilen Projektmanagement, in der Cloud-basierten Datenverarbeitung sowie im Aufbau skalierbarer Datenarchitekturen zu sammeln. Durch die enge Zusammenarbeit mit Scalefree erhielten die Studierenden zudem wertvolle Einblicke in reale Anforderungen der Datenberatung und konnten eine Lösung entwickeln, die sowohl technisch fundiert als auch praxisnah einsetzbar ist.