Das Projektteam startete mit dem Bilderkennungsprozess. Hier werden die Tierarztrechnungen als PDF- oder Bilddatei in ein Programm geladen und von der OCR-Software „Tesseract“, was für „Optical Character Recognition“ (optische Zeichenerkennung) steht, in eine Zeichenkette umgewandelt. Damit liegen alle Inhalte der Rechnung als Text vor. Dieser Text muss nun in einem Text-Mining-Prozess gefiltert und sortiert werden. Es erfolgt eine Unterscheidung in die Rechnungspositionen, die Gesamtsumme sowie Brutto- und Nettobeträge, aber auch in die Angabe des Tieres und dessen Alter, da das Alter des Tieres häufig auch maßgeblich mit dem Anstieg von Kosten zusammenhängt. Das Rechnungsdatum soll dabei ebenfalls ausgelesen und zugeordnet werden können.
Um die Daten weiter auswerten zu können, werden sie in einer CSV-Datei gesammelt und strukturiert. Sobald dieser Schritt erfolgt ist, kann der Aufbau eines Data Marts erfolgen. Ein Data Mart ist ein Datenmodell in einer Datenbank, auf das dann die Mitarbeitenden der WERTGARANTIE Group zugreifen können und mit dem schnelle Abfragen und weitere Analysen möglich sind.
Für die Studierenden ist besonders interessant, dass sie studiengangsübergreifend an einem gemeinsamen Projekt arbeiten und hierbei ihre eigenen Stärken und Kenntnisse einbringen können. Die Zusammenarbeit mit einem Unternehmen ermöglicht eine realitätsnahe Umsetzung eines Projekts, bei dem die Studierenden viele praktische Erfahrungen sammeln können. Dabei stehen sie vor allem in Kontakt mit den Projektmitgliedern des Datawarehouse-Teams der WERTGARANTIE Group, von denen fünf den Business-Intelligence Schwerpunkt des Studiengangs Wirtschaftsinformatik absolviert haben.