1    

IT so leicht wie nie. Ein Selbstlernkurs zur Informationstechnologie.

Data Understanding und Datenqualität (2/10)

Bevor Sie in die praktische Arbeit mit Daten einsteigen, ist es zunächst wichtig, sich kritisch mit den vorhandenen Daten auseinandersetzen. Inwieweit sind die Daten vertrauenswürdig? Welche Vorannahmen wurden bei der Erhebung von Ihnen oder auch von anderen getroffen? Wo könnten sich Fehler eingeschlichen haben? Bedenken Sie, dass die Daten von einem Menschen eingegeben bzw. von einem Computerprogramm geliefert wurden, das ein Mensch geschrieben hat. Die Mensch-Maschine-Interaktion kann zuweilen schwierig und fehlerbehaftet sein.

Die häufigsten Fehler bei der Eingabe sind reine Tippfehler oder ein Verrutschen in der Zeile, was zu fehlenden Werten führen kann. Außerdem müssen einheitliche Formate verwendet werden: z.B. kann für die Angabe eines Datums die ISO-genormte Schreibweise (Jahr-Monat-Tag) zwingend sein. Es ist also Ihre Aufgabe, die Daten zu kontrollieren und ggf. zu korrigieren: Sind die Werte korrekt oder gibt es fehlende Werte? Sind die Datentypen und Formate durchgängig angewendet worden? Gibt es Ausreißer oder offensichtliche Fehler? Data Scientists beschäftigen sich während 70% ihrer Arbeitszeit mit der Datenaufbereitung oder Datenbereinigung (englisch: data wrangling). Erst danach macht es Sinn, die Analyse der Daten zu starten.

Es empfiehlt sich folgende Punkte genauer im Blick zu behalten:

  • Gültigkeit: Stimmen die eingegebenen Daten mit dem Schema überein?
  • Richtigkeit: Stimmen die Daten mit einem geprüften Standarddatensatz überein?
  • Vollständigkeit: Sind alle Datensätze vorhanden?
  • Konsistenz: Liegt eine Konsistenz zwischen den Daten aus verschiedenen Datensätzen bzw. in verschiedenen Systemen vor?
  • Einheitlichkeit: Wurden die gleichen Einheiten und Formate verwendet?