Daten gelten als wichtigster Rohstoff des digitalen Zeitalters. Für Unternehmen stellen sorgfältig gepflegte und aktuell gehaltene Datenbestände einen kritischen Erfolgsfaktor dar. Der Markt bietet hilfreiche Tools, welche die Anwender mit automatisierten Workflows dabei unterstützen, Unternehmensdaten zu bereinigen. Auch SAP hat verschiedene Lösungen im Portfolio, mit denen sich die Datenqualität verbessern lässt: Business Objects Data Services (BODS), Master Data Consolidation (MDC), Information Steward und Agile Data Preparation (ADP).

 

Ablauf einer Datenbereinigung

Vor Beginn des Prozesses ist es wichtig, den genauen Umfang der Bereinigung festzulegen. Das Unternehmen muss definieren, welche Art von Daten es bereinigen möchte und in welchem Bereich eine Steigerung der Datenqualität erforderlich ist. Aktuell nehmen viele Unternehmen ihre Kunden- und Lieferantendaten ins Visier, da sie die Migration auf S/4HANA angehen oder als vorbereitenden Schritt den Business Partner einführen möchten. Aber auch die Optimierung der Material- oder Personalstammdaten kann das Ziel einer Datenbereinigung sein.

 

Abhängig von der Art der Daten läuft zum Beispiel eine Datenbereinigung beim Geschäftspartner gemäß dem folgenden Best-Practice-Ansatz ab: Nach dem Einspeisen der Quelldaten startet der Workflow mit einer Adressbereinigung. Danach folgen die individuelle Bereinigung und der Dubletten-Check. Das Ergebnis des Workflows sind schließlich Qualitätsdaten, die entweder zurück in das Quellsystem gespielt oder in ein neues Zielsystem überführt werden.

 

Kriterien für die Datenqualität festlegen

Im nächsten Schritt gilt es, Standard-Regelwerke zu bestimmen, anhand derer die Bereinigung abläuft. Das kann Aspekte umfassen wie das korrekte Format von Telefonnummern oder E-Mail-Adressen, die einheitliche Erfassung von Bankverbindungen, die Aktualität der Adressdaten oder das Vorhandensein einer European Article Number (EAN) als eindeutiger Produktkennzeichnung. Außerdem muss definiert werden, unter welchen Bedingungen ein Datensatz als Dublette gilt.

 

Je nach Sachgebiet (Business Partner, Material etc.) müssen die Workflows einmalig erstellt werden. Anschließend kann der Bereinigungsprozess starten: Die Daten werden geladen, dann laufen Adress-Cleansing, Data-Cleansing und Dubletten-Check ab. Nachdem die Daten alle Schritte des Workflows absolviert haben, sollte eine Kontrolle und Nachbearbeitung der Ergebnisse stattfinden – am besten nach dem Vier-Augen-Prinzip. Es bietet sich an, den Fachbereich einzubeziehen, um etwaige Fehler schnell zu finden und zu beseitigen. Ob ein Datensatz als Dublette einzustufen ist, sollte ebenfalls der Fachbereich entscheiden, da er mit den Kunden und Lieferanten in Kontakt steht.

 

Datenbereinigung in SAP Data Services

SAP Data Services ist ein ETL-Tool, das Daten aus Quellen unterschiedlichster Art – SAP-Tabellen, Datenbanktabellen, Excel-Files, CSV-Dateien – extrahiert und auf ihre Qualität hin überprüft. Der gesamte Workflow kann auf Wunsch vollständig automatisiert ablaufen. Oder man setzt bestimmte Break Points, um die Ergebnisse der einzelnen Schritte noch einmal zu prüfen, bevor es mit dem nächsten Prozessschritt weitergeht. Bei der postalischen Adressbereinigung bewertet das Programm die Adressen auf der Basis von länderspezifischen SAP-Tabellen. Die Referenzdateien lassen sich bei SAP herunterladen und lokal auf dem eigenen Rechner speichern, sodass auch die Datenbereinigung lokal ablaufen kann.

 

Das Programm selektiert die Datensätze nach solchen, die es für gut befunden hat, und solchen, die es nicht validieren konnte. Ein wesentlicher Vorteil teilautomatisierter Workflows besteht darin, dass sich der Fachbereich die Daten jederzeit anschauen und entsprechend manuell überprüfen kann. Grundsätzlich ist das Programm aber auch in der Lage, bestimmte Korrekturen und Anpassungen bei den Schreibweisen von Straßen- oder Ortsnamen auf Basis der zugrundeliegenden Tabellen eigenständig durchzuführen.

 

Automatisiert oder manuell prüfen

Bei der Selektion der Adressen gibt SAP Data Services dem Anwender bestimmte Qualitätskriterien an die Hand. So kann der Nutzer festlegen, bei welchen Feldern er Änderungen, die das Programm vornimmt, noch einmal prüfen möchte, und bei welchen die automatischen Anpassungen ohne Prüfung übernommen werden sollen. Zusammenfassend lässt sich festhalten, dass die Adressbereinigung eine wichtige Rolle bei der Steigerung der Datenqualität spielt.

 

Weitere qualitätssichernde Maßnahmen im Workflow sind die Datenbereinigung (Data Cleanse) und die Datenvalidierung (Validation), wo es jeweils um die Prüfung bestimmter Datenbestandteile geht. Die Datenbereinigung ist ein umfangreiches Tool, mit dem Anwender Änderungen an den Daten vornehmen können. Die Datenvalidierung hingegen überprüft lediglich, ob die Datensätze den Validierungskriterien entsprechen oder ob sie fehlerhaft sind und überprüft werden müssen. Das Programm weist die Daten der entsprechenden Ausgabedatei zu. Auf diese Weise lassen sich Validierungsthemen einfach in den Workflow einbauen.

 

Dubletten-Abgleich in MDC

Der finale Teil bei der Überprüfung der Datenqualität ist die Dubletten-Prüfung. Sie kann ebenfalls innerhalb von SAP Data Services erfolgen. Ebenso eignet sich SAP MDG Consolidation für den Dubletten-Abgleich. Das MDC ist eine Fiori-App, zum Beispiel in S/4, und wird über das Fiori-Launchpad aufgerufen. Das Prozess-Template zeigt die einzelnen Schritte des Workflows an. Der Initial Check prüft, ob die eingegebenen Felder übereinstimmen. Das System zeigt Fehler und Warnungen inklusive farblicher Kennzeichnung an, sofern welche vorliegen. Die geladenen Daten lassen sich auch in einer Detailansicht darstellen.

 

Im zweiten Schritt findet das Matching, also der eigentliche Dubletten-Abgleich, statt. Mit dem Best-Practice-Template von SAP erzielen Anwender zuverlässige Ergebnisse. Haben die Datensätze keine ausreichende Übereinstimmung und sollten noch einmal von einer Person aus dem Fachbereich geprüft werden, teilt das System sie der Open Match Group zu. In die Approved Match Group kommen Datensätze mit mehr als 90 % Übereinstimmung, die daraufhin zusammengeführt werden. Der erforderliche Grad an Übereinstimmung lässt sich individuell bestimmen. Ebenso kann festgelegt werden, dass jeder Datensatz noch einmal manuell geprüft werden muss. So haben Anwender die Möglichkeit, bei Bedarf einzelne Datensätze aus der Approved Match Group herauszunehmen.

 

Die Best Record Calculation als nächster Prozessschritt zeigt an, wie viele Datensätze vorhanden sind und ob Updates oder neue Best Record Matchings vorliegen. Anschließend findet nochmals eine Validierung statt, um Fehler in den Datensätzen auszuschließen. Nach erfolgreicher Dubletten-Prüfung können die bereinigten Daten schließlich von der Staging-Area in das Zielsystem übertragen werden.

Steigern Sie die Qualität Ihrer Stammdaten

Weitere interessante Beiträge: