Datenbereinigung

Zur Datenbereinigung (englisch data cleansing oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.

Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten).

Die Datenbereinigung ist ein Beitrag zur Verbesserung der Datenqualität. Allerdings betrifft dies auch die Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit), die sich mittels Datenbereinigung nicht verbessern lassen.

Prozess zur Datenbereinigung

Der Prozess zur Bereinigung der Daten gliedert sich in fünf aufeinanderfolgende Schritte:[1]

  1. Datenqualität – Anforderungen an Daten festlegen
  2. Analyse der Daten
  3. Sicherungskopie der Datei/Tabelle erstellen
  4. Standardisierung
  5. Bereinigung der Daten

Datenqualität – Anforderungen

Hochwertige und verlässliche Daten müssen bestimmte Anforderungen erfüllen z. B.

  • valide Daten: gleicher Datentyp
  • vollständige Daten
  • einheitliche Daten: gleiche Einheit (z. B. Währung, Gewichtsangabe, Länge)
  • integre Daten: Daten müssen vor absichtlicher und/oder unabsichtlicher Manipulation geschützt sein.

Analyse der Daten

Nachdem die Anforderungen geklärt sind, müssen die Daten z. B. mit Hilfe der Checklisten geprüft werden, inwieweit sie die geforderte Qualität aufweisen. Daraus ergeben sich z. B. die jeweiligen Fehlerquoten.

Sicherung

Bevor man die Daten bereinigt, sollte man die originären, fehlerhaften Daten als Kopie speichern und nach der Bereinigung auf keinen Fall einfach löschen. Ansonsten wären die Bereinigungen nicht nachvollziehbar. Außerdem wäre ein solcher Prozess nicht revisionssicher.

Eine Alternative zur Archivierung insbesondere bei mehreren Bereinigungsläufen ist die Speicherung des korrigierten Werts in einer zusätzlichen Spalte. Eine weitere Möglichkeit ist die Speicherung in einer zusätzlichen Zeile. Die letzte Möglichkeit bei einer großen Anzahl zu korrigierender Spalten und Zeilen ist das Anlegen einer gesonderten Tabelle. Die jeweilige Entscheidung hängt auch vom Speicherplatz ab, der zur Verfügung steht.

Standardisierung

Für eine erfolgreiche Bereinigung müssen die Daten ggf. standardisiert werden. Dies ist abhängig von den Ergebnissen der Datenanalyse und der Fehlerquote.

Die Strukturierung bringt die Daten in ein einheitliches bzw. verbessertes Format, beispielsweise wird dabei ein Datum in ein einheitliches Datenformat gebracht (01.09.2009). Oder zusammengesetzte Daten werden in ihre Bestandteile zerlegt, z. B. der Name eines Kunden in die Namensbestandteile Anrede, Titel, Vorname und Nachname. Meistens sind solche Strukturierungen nicht trivial und werden mit Hilfe von komplexen Parsern durchgeführt.

Bei der Normierung werden die vorhandenen Werte auf eine normierte Werteliste abgebildet. Diese Normierung kann z. B. für die Anrede, den akademischen Titel oder Firmenzusätze durchgeführt werden. So können beispielsweise die Firmenzusätze e. Kfr. und Kfm durch den normierten Wert e. K. ersetzt werden, wodurch die spätere Bereinigung stark vereinfacht wird.

Daten bereinigen

Für die Bereinigung der Daten stehen sechs Methoden zu Auswahl, die einzeln oder kombiniert angewendet werden können:

  • Ableiten aus anderen Daten: Aus anderen Daten werden die korrekten Werte abgeleitet (z. B. die Anrede aus dem Geschlecht).
  • Ersetzen durch andere Daten: Die fehlerhaften Daten werden durch andere Daten (z. B. aus anderen Systemen) ersetzt.
  • Default-Werte verwenden: Es werden Default-Werte anstelle der fehlerhaften Daten verwendet.
  • Fehlerhafte Daten entfernen: Die Daten werden herausgefiltert und nicht weiter verarbeitet.
  • Duplikate entfernen: Duplikate werden über die Duplikaterkennung identifiziert, die nicht-redundanten Daten aus den Dubletten konsolidiert und daraus ein einziger Datensatz gebildet.
  • Zusammenfassungen auftrennen: Im Gegensatz zur Entfernung von Duplikaten werden hierbei fehlerhaft zusammengefasste Daten wieder getrennt.

Beispiel

Ein besonders häufiger Fall ist die Datenbereinigung bei Anschriften, wobei es unterschiedliche Schreibweise bei den Straßennamen geben kann (abgesehen von „Straße“ und „Strasse“). Auch die Schreibweise bei den Namen kann unterschiedlich sein, obwohl es sich im Einzelfall um ein und dieselbe Person handeln kann. Dadurch entstehen immer wieder Dubletten. Eine sehr umfangreiche Form der Datenbereinigung, die jedoch schon eher eine Migration glich, war die Umstellung von vierstelligen auf fünfstellige Postleitzahlen in Deutschland ab 1990.[2]

Siehe auch

Literatur

  • Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi: Datenqualität erfolgreich steuern. 2009, Hanser Fachbuch, ISBN 978-3-446-42056-4.

Einzelnachweise

  1. Apel, 2009, S. 157
  2. Die Umstellung auf die „Fünfstelligen“. In: Michel-Rundschau. 2/1994