Data Operations: Daten für die Analyse optimal vorbereiten

#dataops: Folgen Sie der Diskussion auf Twitter
#dataops: Folgen Sie der Diskussion auf Twitter

Kürzlich habe ich einige Blog-Posts zum Thema Datenstrategie veröffentlicht. Für viele Unternehmen geht die Entwicklung und Einführung einer Datenstrategie nicht tief genug. Häufig habe ich ähnliches gehört: „So weit ist unser Unternehmen noch gar nicht. Wir haben noch viel operativ vorzubereiten, bevor wir eine Datenstrategie voll umfänglich etablieren können.“

Ich habe in diesen Gesprächen nachgehakt, wo diese grundlegenden Lücken in den Unternehmen bestehen, und entschlossen eine neue Blog-Post-Serie aufzusetzen, um zum Thema Data Operations (#dataops) konkrete und einfach umsetzbare Vorschläge zu geben.

Daten für die Analyse vorbereiten

Eine der wesentlichen Fragen, die sich Datenanalysten immer wieder stellen, lautet: „Gibt es eine Möglichkeit meine Daten für die Verwendung mit Analysewerkzeugen, wie Tableau, optimal vorzubereiten?“

Daten können auf unterschiedliche Arten strukturiert sein. Die meisten neuen Tableau-Anwender erliegen der Versuchung, Tableau mit einem bereits formatierten und voraggregierten Excel-Bericht (siehe Abbildung 1.1) zu verbinden und diesen in Tableau zu visualisieren. Heißt es nicht mit Tableau können Daten jeder Art einfach und intuitiv verwenden werden? Sehr schnell stellt man fest, dass ein solches Vorgehen nicht funktioniert, wie erwartet und sich so auch keine Visualisierungen erstellen lassen.

Abbildung 1.1: Bereits formatierter und voraggregierter Excel-Bericht
Abbildung 1.1: Bereits formatierter und voraggregierter Excel-Bericht

Dieses Szenario, dem viele Einsteiger begegnen, ist nicht ungewöhnlich und tatsächlich ein häufiger Stolperstein bei der Einarbeitung in Tableau, der die Analyse Ihrer Daten erschweren kann.

Die folgenden Punkte zeigen Ihnen Vorschläge zur sauberen Vorbereitung Ihrer Daten anhand des Beispielberichts:

  • Verzichten Sie auf den einleitenden Text („Temperaturmessung zum Monatsbeginn“).
  • Überführen Sie hierarchische Überschriften („Frankfurt“, „Berlin“) auf eine Spalteninformation (neue Spalte „Ort“).
  • Pivotisieren Sie Daten von einer „weiten“ Kreuztabelle mit Variablen in Spalten („Früh“, „Mittag“, „Abend“) in eine „lange“ Tabelle, die die Variablen stets in den Zeilen trägt (in diesem Beispiel die Uhrzeit).
  • Nutzen Sie vollständige Datums- und ggf. Zeitformate („01.04.2018 06:00“) anstatt z.B. nur den Monatsnamen („April“).
  • Überprüfen Sie, dass Zahlen im Zahlenformat und nicht im Textformat gespeichert sind.
  • Verzichten Sie voraggregierte Daten („Durchschnitt“, „Gesamtdurchschnitt“).
  • Entfernen Sie leere Zeilen.
  • Achten Sie darauf, dass jede Spate eine aussagekräftige Spaltenüberschrift trägt.

Haben Sie diese Vorschläge befolgt, ist aus Ihrer „weiten“ Kreuztabelle nun eine „lange“ Zeilen-basierte Tabelle geworden, und damit die perfekte Basis zur umfangreichen Datenanalyse (siehe Abbildung 1.2).

Abbildung 1.2: Zur Datenanalyse geeignete „lange Tabelle“ ohne Aggregationen
Abbildung 1.2: Zur Datenanalyse geeignete „lange Tabelle“ ohne Aggregationen

Dieser Beitrag ist der dritte Teil der Data-Operations-Serie:

Teil 1: Daten für die Analyse optimal vorbereiten
Teil 2: Wann sollten Sie Datenextrakte und wann Live-Verbindungen verwenden
Teil 3: Wie Sie die Performance Ihrer Datenanalyse und Dashboards steigern

Außerdem ist dieser Blog-Post ein Auszug aus dem Buch „Datenvisualisierung mit Tableau„, das am 31. Juli 2018 erscheinen wird: