Data Operations: Daten für die Analyse optimal vorbereiten

#dataops: Folgen Sie der Diskussion auf Twitter
#dataops: Folgen Sie der Diskussion auf Twitter

Kürzlich habe ich einige Blog-Posts zum Thema Datenstrategie veröffentlicht. Für viele Unternehmen geht die Entwicklung und Einführung einer Datenstrategie nicht tief genug. Häufig habe ich ähnliches gehört: „So weit ist unser Unternehmen noch gar nicht. Wir haben noch viel operativ vorzubereiten, bevor wir eine Datenstrategie voll umfänglich etablieren können.“

Ich habe in diesen Gesprächen nachgehakt, wo diese grundlegenden Lücken in den Unternehmen bestehen, und entschlossen eine neue Blog-Post-Serie aufzusetzen, um zum Thema Data Operations (#dataops) konkrete und einfach umsetzbare Vorschläge zu geben.

Daten für die Analyse vorbereiten

Eine der wesentlichen Fragen, die sich Datenanalysten immer wieder stellen, lautet: „Gibt es eine Möglichkeit meine Daten für die Verwendung mit Analysewerkzeugen, wie Tableau, optimal vorzubereiten?“

Daten können auf unterschiedliche Arten strukturiert sein. Die meisten neuen Tableau-Anwender erliegen der Versuchung, Tableau mit einem bereits formatierten und voraggregierten Excel-Bericht (siehe Abbildung 1.1) zu verbinden und diesen in Tableau zu visualisieren. Heißt es nicht mit Tableau können Daten jeder Art einfach und intuitiv verwenden werden? Sehr schnell stellt man fest, dass ein solches Vorgehen nicht funktioniert, wie erwartet und sich so auch keine Visualisierungen erstellen lassen.

Abbildung 1.1: Bereits formatierter und voraggregierter Excel-Bericht
Abbildung 1.1: Bereits formatierter und voraggregierter Excel-Bericht

Dieses Szenario, dem viele Einsteiger begegnen, ist nicht ungewöhnlich und tatsächlich ein häufiger Stolperstein bei der Einarbeitung in Tableau, der die Analyse Ihrer Daten erschweren kann.

Die folgenden Punkte zeigen Ihnen Vorschläge zur sauberen Vorbereitung Ihrer Daten anhand des Beispielberichts:

  • Verzichten Sie auf den einleitenden Text („Temperaturmessung zum Monatsbeginn“).
  • Überführen Sie hierarchische Überschriften („Frankfurt“, „Berlin“) auf eine Spalteninformation (neue Spalte „Ort“).
  • Pivotisieren Sie Daten von einer „weiten“ Kreuztabelle mit Variablen in Spalten („Früh“, „Mittag“, „Abend“) in eine „lange“ Tabelle, die die Variablen stets in den Zeilen trägt (in diesem Beispiel die Uhrzeit).
  • Nutzen Sie vollständige Datums- und ggf. Zeitformate („01.04.2018 06:00“) anstatt z.B. nur den Monatsnamen („April“).
  • Überprüfen Sie, dass Zahlen im Zahlenformat und nicht im Textformat gespeichert sind.
  • Verzichten Sie voraggregierte Daten („Durchschnitt“, „Gesamtdurchschnitt“).
  • Entfernen Sie leere Zeilen.
  • Achten Sie darauf, dass jede Spate eine aussagekräftige Spaltenüberschrift trägt.

Haben Sie diese Vorschläge befolgt, ist aus Ihrer „weiten“ Kreuztabelle nun eine „lange“ Zeilen-basierte Tabelle geworden, und damit die perfekte Basis zur umfangreichen Datenanalyse (siehe Abbildung 1.2).

Abbildung 1.2: Zur Datenanalyse geeignete „lange Tabelle“ ohne Aggregationen
Abbildung 1.2: Zur Datenanalyse geeignete „lange Tabelle“ ohne Aggregationen

Dieser Beitrag ist der dritte Teil der Data-Operations-Serie:

Teil 1: Daten für die Analyse optimal vorbereiten
Teil 2: Wann sollten Sie Datenextrakte und wann Live-Verbindungen verwenden
Teil 3: Wie Sie die Performance Ihrer Datenanalyse und Dashboards steigern

Außerdem ist dieser Blog-Post ein Auszug aus dem Buch „Datenvisualisierung mit Tableau„, das am 31. Juli 2018 erscheinen wird:

How to speed up Tableau by using Performance Recordings

Tableau Performance Recording Timeline
Tableau Performance Recording Timeline

Getting your dashboards up to speed can be quite difficult if you don’t know where the latency is situated. The first and most important rule about making workbooks more efficient is to understand that if it loads slowly in Desktop on your computer, then it will be slow on the server too once it is published. Tableau Desktop and Tableau Server each have their own way to enable, record, and analyze performance.

A must have for performance tuning your workbooks. All you have to do is start the Tableau Performance Recording, make your workbook action and stop the Performance Recording. A few seconds later, Tableau opens a new workbook with the Performance Summary dashboard in it.

Create a performance recording in Tableau Desktop

  1. To start recording performance, follow this step: Help > Settings and Performance > Start Performance Recording
  2. Make some dashboard operations and/or refresh your data source(s).
  3. To stop recording, and then view a temporary workbook containing results from the recording session, follow this step: Help > Settings and Performance > Stop Performance Recording
  4. You can now view the Performance Summary dashboard and begin your analysis.

Create a performance recording on Tableau Server

  1. Administrators must enable the feature. This is located under settings, for each site.
  2. Check the box and save for Workbook Performance Metrics.
  3. Navigate to a view on the server.
  4. Remove the iid=xx from the URL.
  5. Enter in its place record_performance=yes. Your full URL should now look something like this: https://data.alexloth.com/#/site/AA/views/Superstore/Summary?:record_performance=yes
  6. After the page reloads, you’ll notice the ID is added automatically back to the URL and that a performance button appears within the View’s toolbar. Don’t click on the performance button yet.
  7. Do some filtering and some clicking within the workbook such as applying filters, selecting marks/rows, and clicks that cause actions to other elements of the visualization.
  8. Then click the performance button.
  9. Now you’re ready to click on the Performance button which will launch a new window with the Performance Summary dashboard.
  10. Don’t forget to disable the performance recording in the admin settings when you are finished.

Understand the Performance Summery dashboard

The Performance Summery dashboard contains three views:

  • Timeline: a Gantt chart displaying event start time and duration.
  • Events sorted by time: a bar chart showing event duration by type.
  • Query text: It optionally appears when clicking-on an executing query event in the bar chart.

Time line Gantt chart

The uppermost view in a performance recording dashboard shows the events that occurred during the recording, arranged chronologically from left to right. The bottom axis shows elapsed time since Tableau started, in seconds.

In the Timeline view, the WorkbookDashboard, and Worksheet columns identify the context for the events. The Event column identifies the nature of the event, and the final column show each event’s duration and how it compares chronologically to other recorded events.

The events sorted by time

This section of the workbook shows the duration of recorded events in descending order. This is useful for observing the execution time of each event that occurs during the performance recording. This will help you identify any lengthy events that may be the cause of performance problems.
Events with longer durations can help you identify where to look first if you want to speed up your workbook.

Different colors indicate different types of events. The range of events that can be recorded is:

  • Computing layouts: If layouts are taking too long, consider simplifying your workbook.
  • Connecting to a data source: Slow connections could be due to network issues or issues with the database server.
  • Executing query: If queries are taking too long, consult your database server’s documentation.
  • Generating extract: To speed up extract generation, consider only importing some data from the original data source. For example, you can filter on specific data fields, or create a sample based on a specified number of rows or percentage of the data.
  • Geocoding: To speed up geocoding performance, try using less data or filtering out data.
  • Blending data: To speed up data blending, try using less data or filtering out data.
  • Server rendering: You can speed up server, rendering by running additional VizQL Server processes on additional machines.

Query text

Alternatively, the workbook also displays the query text for any specific event that you want to examine in detail. You can access the detail by clicking on any of the green executing query events in the bar chart. This is a handy feature which allows you to review any query text that may be of interest without having to leave the tableau performance summary dashboard.

If you click on an Executing Query event in either the Timeline or Events section of a performance recording dashboard, the text for that query is displayed in the Query section.