Data Operations: Wann sollten Sie Datenextrakte und wann Live-Verbindungen verwenden

#dataops: Folgen Sie der Diskussion auf Twitter
#dataops: Folgen Sie der Diskussion auf Twitter

Nachdem Sie Ihre Daten f├╝r die Analyse optimal vorbereitet haben, stellt sich die Frage auf welche Weise Sie Ihre Daten bereithalten wollen, damit Sie schnell erste Erkenntnisse erhalten.

Tableau bietet Ihnen f├╝r die meisten Datenquellen die M├Âglichkeit, zwischen einer Live-Verbindung, also einer direkten Verbindung zur Datenbank, und einem Datenextrakt, also einem Abzug der Daten zu w├Ąhlen. Wie Abbildung 1.1 zeigt, k├Ânnen Sie einfach zwischen beiden Verbindungstypen wechseln.

Auswahlkn├Âpfe, um zwischen Live-Verbindung und Datenextrakt zu wechseln
Abbildung 1.1: Auswahlkn├Âpfe, um zwischen Live-Verbindung und Datenextrakt zu wechseln

Live-Verbindungen erm├Âglichen Ihnen die Arbeit mit den Daten, wie sie zum momentanen Zeitpunkt auf der Datenbank oder der Datei vorliegen. Wenn Sie Daten extrahieren, importieren Sie einige oder alle Daten in die Data Engine von Tableau. Dies gilt sowohl f├╝r Tableau Desktop als auch f├╝r Tableau Server. Welche Verbindungsmethode Sie bevorzugen sollten, h├Ąngt von Ihrer Situation und dem Anwendungsfall, Ihren Anforderungen sowie von der Verf├╝gbarkeit der Datenbank und der Netzwerkbeschaffenheit ab.

Immer aktuell mit der Live-Verbindung

Durch die direkte Verbindung mit Ihrer Datenquelle visualisieren Sie immer die aktuellsten Daten, die Ihnen die Datenbank zur Verf├╝gung stellt. Wenn Ihre Datenbank in Echtzeit aktualisiert wird, m├╝ssen Sie die Tableau-Visualisierung nur ├╝ber die Funktionstaste F5 aktualisieren oder indem Sie mit der rechten Maustaste auf die Datenquelle klicken und die Option Aktualisieren ausw├Ąhlen.

Wenn Sie eine Verbindung zu gro├čen Datenmengen herstellen, die Visualisierung sehr viele Details enth├Ąlt oder Ihre Daten in einer leistungsstarken Datenbank mit entsprechend ausgestatteter Hardware gespeichert sind, k├Ânnen Sie mit einer direkten Verbindung eine schnellere Antwortzeit erzielen.

Die Auswahl einer direkten Verbindung schlie├čt nicht die M├Âglichkeit aus, die Daten sp├Ąter zu extrahieren. Andersherum k├Ânnen Sie auch wieder von einem Extrakt zu einer Live-Verbindung wechseln, indem Sie mit der rechten Maustaste auf die Datenquelle klicken und die Option Extrakt verwenden deaktivieren.

Unabh├Ąngig mit einem Datenextrakt

Datenextrakte haben naturgem├Ą├č nicht den Vorteil, dass sie in Echtzeit aktualisiert werden, wie es bei einer Live-Verbindung der Fall ist. Die Verwendung der Data Engine von Tableau bietet jedoch eine Reihe von Vorteilen:

Leistungsverbesserung bei langsamen Datenquellen:

Vielleicht ist Ihre Datenbank stark mit Anfragen belastet oder bereits mit transaktionalen Operationen besch├Ąftigt. Mithilfe der Data Engine k├Ânnen Sie Ihre Datenbank entlasten und die Datenhaltung von Tableau ├╝bernehmen lassen. Extrakte k├Ânnen Sie am besten au├čerhalb der Sto├čzeiten aktualisieren. Tableau Server kann Extrakte auch zu festgelegten Zeitpunkten aktualisieren, zum Beispiel nachts um 3 Uhr.

Inkrementelles Extrahieren:

Durch das inkrementelle Extrahieren wird auch die Aktualisierungszeit beschleunigt, da Tableau nicht die gesamte Extraktdatei aktualisiert. Es f├╝gt nur neue Datens├Ątze hinzu. Um inkrementelle Extrakte auszuf├╝hren, m├╝ssen Sie ein Feld angeben, das als Index verwendet werden soll. Tableau aktualisiert die Zeile nur, wenn sich der Index ge├Ąndert hat. Daher m├╝ssen Sie beachten, dass ├änderungen an einer Datenzeile, die das Indexfeld nicht ├Ąndert, von der Aktualisierung nicht ber├╝cksichtigt werden.

Datenmenge mit Filtern einschr├Ąnken:

Eine andere M├Âglichkeit, Extrakte zu beschleunigen, besteht darin, beim Extrahieren der Daten Filter anzuwenden. Wenn f├╝r die Analyse nicht die gesamte Datenmenge ben├Âtigt wird, k├Ânnen Sie den Extrakt so filtern, dass er nur die erforderlichen Datens├Ątze enth├Ąlt. Wenn Sie eine sehr gro├če Datenmenge haben, m├╝ssen Sie nur selten den gesamten Inhalt der Datenbank extrahieren. Zum Beispiel kann Ihre Datenbank Daten f├╝r viele Regionen enthalten, aber Sie ben├Âtigen m├Âglicherweise nur die Daten zur Region ┬╗S├╝d┬ź.

Um einen Extrakt entsprechend anzulegen, w├Ąhlen Sie als Verbindung Extrakt aus und klicken dann auf das nebenstehende Bearbeiten. Es ├Âffnet sich das Fenster Daten extrahieren. Mit einem weiteren Klick auf Hinzuf├╝gen k├Ânnen Sie nun einen Filter erstellen, der f├╝r Ihren Extrakt angewandt wird (siehe Abbildung 1.2).

Der Datenextrakt kann mit Filtern eingeschr├Ąnkt werden
Abbildung 1.2: Der Datenextrakt kann mit Filtern eingeschr├Ąnkt werden

Weitere Funktionen f├╝r bestimmte Datenquellen:

Wenn Ihre Daten aus einer bestimmten Datenquelle stammen, so sind unter anderem Aggregationsfunktion wie Median (beispielsweise bei Access-Datenbanken ) bei einer Live-Verbindung nicht verf├╝gbar. Arbeiten Sie mit einem Extrakt, k├Ânnen Sie diese Funktionen nutzen, auch wenn sie von der urspr├╝nglichen Datenquelle nicht unterst├╝tzt werden.

Daten├╝bertragbarkeit:

Sie k├Ânnen Extrakte lokal speichern und auch dann verwenden, wenn die Verbindung zu Ihrer Datenquelle nicht verf├╝gbar ist. Eine Live-Verbindung funktioniert nicht, wenn Sie nicht ├╝ber ein lokales Netzwerk oder das Internet auf Ihre Datenquelle zugreifen k├Ânnen. Extrakte werden au├čerdem komprimiert und sind normalerweise wesentlich kleiner als die urspr├╝nglichen Datenbanktabellen, was dem Weitertransport der Daten zugutekommt.

Achten Sie auf Datenschutz und Data Governance

In Unternehmen spielen Datenschutz und Data Governance und damit verbunden Integrit├Ąt und Sicherheit der Daten eine wichtige Rolle. Wenn Sie Extrakte an Mitarbeiter oder Gesch├Ąftspartner verteilen, sollten Sie die etwaige Vertraulichkeit Ihrer Daten ber├╝cksichtigen. Ziehen Sie in Betracht, den Inhalt des Extrakts ├╝ber Filter einzuschr├Ąnken und zu sichtbaren Dimensionen zu aggregieren.

Sind Sie sich unsicher, arbeiten Sie im Zweifelsfall besser mit einer Live-Verbindung, da in diesem Fall Ihre Datenbank das Rechte-Management steuert und so Ihre Daten nicht von Personen ohne ausreichende Berechtigungen gesehen werden k├Ânnen.

Dieser Beitrag ist der dritte Teil der Data-Operations-Serie:

Teil 1: Daten f├╝r die Analyse optimal vorbereiten
Teil 2: Wann sollten Sie Datenextrakte und wann Live-Verbindungen verwenden
Teil 3: Wie Sie die Performance Ihrer Datenanalyse und Dashboards steigern

Au├čerdem ist dieser Blog-Post ein Auszug aus dem Buch “Datenvisualisierung mit Tableau“, das am 31. Juli 2018 erschienen ist:

Datenvisualisierung mit Tableau
  • Alexander Loth
  • Publisher: mitp
  • Edition no. 2018 (31.07.2018)
  • Broschiert: 224 pages

Das Tableau-Buch ist ab sofort im Handel erh├Ąltlich

Das erste deutschsprachige Tableau-Buch ist auch bei Amazon erh├Ąltlich
Das erste deutschsprachige Tableau-Buch ist auch bei Amazon erh├Ąltlich

Das Buch “Datenvisualisierung mit Tableau” ist ab sofort im Handel erh├Ąltlich:

Vorschau:

Mehr erfahren:

Erfahren Sie mehr zu “Datenvisualisierung mit Tableau” auf der Webseite zum Tableau-Buch!

[Update 11 Aug 2018]: In den Informatikb├╝cher-Top-20 bei Amazon!
[Update 17 Aug 2018]: In den Informatikb├╝cher-Top-10 bei Amazon!

Datenvisualisierung mit Tableau: Tableau-Buch ab sofort vorbestellbar

Das erste deutschsprachige Tableau-Buch enth├Ąlt auch ein Kapitel zur Datenaufbereitung mit Tableau Prep
Das erste deutschsprachige Tableau-Buch enth├Ąlt auch ein Kapitel zur Datenaufbereitung mit Tableau Prep

Mein Buch “Datenvisualisierung mit Tableau” kann ab sofort vorbestellt werden:

Bevor ich nun selbst viel zum Buch schreibe, gebe ich einfach mal einen Auszug aus dem Umschlagtext wieder:

Visualisieren Sie Ihre Daten schnell und ausdrucksstark mit Tableau, um praktisch umsetzbare Ergebnisse zu erhalten. Alexander Loth zeigt Ihnen Schritt f├╝r Schritt, wie Sie ganz einfach visuelle Analysen erstellen und so selbst komplexe Datenstrukturen verstehen sowie gewonnene Erkenntnisse effektiv kommunizieren k├Ânnen.

Das Buch richtet sich an:

  • Menschen, die Zugang zu Daten haben und diese verstehen m├Âchten
  • F├╝hrungskr├Ąfte, die Entscheidungen auf Grundlage von Daten treffen
  • Analysten und Entwickler, die Visualisierungen und Dashboards erstellen
  • angehende Data Scientists

Zum Verst├Ąndnis dieses Buches sind weder besondere mathematische F├Ąhigkeiten noch Programmiererfahrung n├Âtig. Es eignet sich daher auch f├╝r Einsteiger und Anwender, die sich dem Thema Datenvisualisierung und -analyse praxisbezogen und ohne ausschweifende theoretische Abhandlungen, n├Ąhern m├Âchten.

Die grundlegenden Funktionen von Tableau werden Schritt f├╝r Schritt erl├Ąutert und Sie lernen, welche Visualisierungsm├Âglichkeiten wann sinnvoll sind. Der Autor zeigt Fallbeispiele auf, die weit ├╝ber eine ┬╗Standard-Analyse┬ź hinausreichen und geht auf Funktionen ein, die selbst erfahrenen Nutzern oft nicht hinl├Ąnglich bekannt sind. Sie erhalten au├čerdem Hinweise und Tipps, die das Arbeiten mit Tableau erleichtern, und k├Ânnen so zuk├╝nftig Ihre eigenen Daten bestm├Âglich visualisieren und analysieren.

[Update 25 Jul 2018]: Hier ist das erste Exemplar ganz druckfrisch:

Die 5 wichtigsten B├╝cher zu Data Science

Welche B├╝cher sollten Sie lesen um als Data Scientist erfolgreich zu sein? | Photo Credit: via Sebastian Sikora

F├╝r den Einstieg und den ├ťberblick zu Data Science:

The Data Science Handbook
  • Field Cady
  • Publisher: John Wiley and Sons Ltd
  • Gebundene Ausgabe: 416 pages

Die universelle Programmiersprache Python eignet sich hervorragend zur L├Âsung von Data-Science-Fragestellungen:

Eine Einf├╝hrung zu Statistical Learning und Machine Learning (classification, clustering, supervised, unsupervised, …) mit R:

An Introduction to Statistical Learning: with Applications in R (Springer Texts in Statistics)
  • Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
  • Publisher: Springer
  • Edition no. 1201372017 (25.06.2013)
  • Gebundene Ausgabe: 440 pages

Bei gro├čen Datenmengen f├╝hrt an Hadoop kein Weg vorbei:

Hadoop: The Definitive Guide
  • Tom White
  • Publisher: O'Reilly and Associates
  • Edition no. 4 (30.04.2015)
  • Taschenbuch: 728 pages

Wie Data Science im Unternehmen Mehrwert schafft:

Digitale Banken: Welche Digitalisierungstrends bewegen die Finanzbranche 2018?

Immersive und interaktive Analyse von Finanzdaten mit Argumented Reality
Immersive und interaktive Analyse von Finanzdaten mit Argumented Reality (Blockchain-Dashboard)

Jedes Jahr (2015, 2016, 2017 und 2018) stelle ich Digitalisierungstrends vor, die der Finanzbranche ein gro├čes Potenzial bieten. Dabei geht es vor allem um einen ├ťberblick dar├╝ber, welche Trends und Technologien zuk├╝nftig eine gr├Â├čere Rolle spielen werden oder k├Ânnten.

Im Folgenden habe ich die f├╝nf Digitalisierungstrends identifiziert, die f├╝r Banken und Versicherungen in Zukunft besonders spannend sein d├╝rften:

1. Maschine Learning

Maschine Learning und Deep Learning werden im Investment Banking angewandt, um Unternehmensbewertungen schneller und zuverl├Ąssiger durchzuf├╝hren. Mehr Daten denn je k├Ânnen hinzugezogen werden. Eine Gewichtung der Daten erfolgt komplett autonom. Da manuelle Analyse weitgehend entf├Ąllt, werden Entscheidungsprozesse drastisch beschleunigt. Investoren, die mit konventionellen Werkzeugen arbeiten, haben das Nachsehen.

2. K├╝nstliche Intelligenz

Durch K├╝nstliche Intelligenz gesteuerte Chatbots vermitteln den Kunden eine menschlichen-├Ąhnliche Betreuung. Chatbots werden dar├╝ber hinaus in existierende Cloud-basierende Assistenten, wie Alexa oder Siri, eingebunden und sind in der Lage mittels Natural Language Processing, auch komplexere Anfragen zu verstehen. Recommender-Systeme liefern ma├čgeschneiderte L├Âsungen, die speziell auf die Bed├╝rfnisse der Kunden abgestimmt sind.

3. Internet of Things

Wearables und in Kleidung eingearbeitete Sensoren (Internet of Things, IoT) liefern ausreichend Daten, um den Lebensstil der Kunden vollst├Ąndig zu vermessen. Dadurch k├Ânnen individuelle Raten f├╝r Versicherungen und Finanzprodukte berechnet werden. Au├čerdem bieten die IoT-Daten eine weitere Datenquelle f├╝r die Recommender-Systeme.

4. Blockchain

Vertr├Ąge werden kosteng├╝nstig, f├Ąlschungssicher und irreversibel in der Blockchain gespeichert. Die Blockchain dienst sogenannten Smart Contracts als dezentrale Datenbank. Dar├╝ber hinaus liefern Blockchain-Implementierungen, wie Ethereum, das Ausf├╝hren von Logik, die beispielsweise monatliche Zahlungen pr├╝fen und ggf. auch die Erf├╝llung von Vertragsbestandteilen (z.B. im Schadenfall) steuern.

5. Argumented Reality

Arbeitspl├Ątze werden mit Technik ausgestattet, die Argumented Reality erm├Âglicht. L├Âsungen wie Microsoft’s Hololense erm├Âglichen Analysten und H├Ąndlern eine immersive und interaktive Analyse von Finanzdaten in Echtzeit. Insbesondere f├Ąllt dadurch auch die Zusammenarbeit mit Kollegen leichter, da Plattformen zur visuellen Kollaboration traditionelle Meetings weitgehend abl├Âsen.

Welcher ist der 6. Trend?

Helfen Sie den 6. Digitalisierungstrend zu benennen? Nehmen Sie hierzu an der Twitter-Umfrage teil. Selbstverst├Ąndlich freue ich mich auch ├╝ber Kommentare und eine spannende Diskussion.