Data Science: Enabling Research at CERN with Big Data

Wow, time flies. One year has passed since I started to work at CERN as a data scientist. CERN, surrounded by snow-capped mountains and Lake Geneva, is known for its particle accelerator Large Hadron Collider (LHC) and its adventure in search of the Higgs boson. Underneath the research there is an tremendous amount of data that are analysed by data scientists.

Filters, known as High Level Triggers, reduce the flow of data from a petabyte (PB) a second to a gigabyte per second, which is then transferred from the detectors to the LHC Computing Grid. Once there, the data is stored on about 50PB of tape storage and 20PB of disk storage. The disks are managed as a cloud service (Hadoop), on which up to two millions of tasks are performed every day.

High Level Trigger data flow
High Level Trigger data flow, as applied in the ALICE experiment

CERN relies on software engineers and data scientists to streamline the management and operation of its particle accelerator. It is crucial for research to allow real-time analysis. Data extractions need to remain scalable and predictive. Machine learning is applied to identify new correlations between variables (LHC data and external data) that were not previously connected.

So what is coming up next? Scalability remains a very important area, as the CERN’s data will continue to grow exponentially. However, the role of data scientists goes much further. We need to transfer knowledge throughout the organisation and enable a data-driven culture. In addition, we need to evaluate and incorporate new innovative technologies for data analysis that are appropriate for our use cases.

Top 10 Angels&Demons Questions

CERN Exhibition: Top 10 Angels&Demons Questions
CERN Exhibition: Top 10 Angels&Demons Questions

Gestern haben wir Angels & Demons (deutscher Titel: Illuminati) im Kino gesehen. Die Verfilmung des gleichnamigen Bestsellers von Dan Brown war vor allem visuell sehr ansprechend. Tom Hanks hat wie schon in Da Vinci Code souverän die Rolle des Protagonisten Robert Langdon verkörpert.

Ein Teil der Handlung des Films spielt am CERN. Tatsächlich wurden einige Einstellungen am ATLAS-Detektor des LHC gedreht. Regisseur Ron Howard sah sich ebenfalls das CERN-Gelände an, um den Film authentischer zu gestalten. Die Herstellung einer Bombe aus Antimaterie ist hingegen ebenso Fiktion wie die “Schöpfung aus dem Nichts”, welche im Film lediglich dazu dient den Konflikt zwischen Religion und Naturwissenschaft zu entfachen.

CERN hat Angels & Demons eigens eine Ausstellung (siehe Foto oben) und eine Website gewidmet, um “the science behind the story” zu erläutern und auf häufig gestellte Fragen (“Does CERN create black holes?”, etc.) einzugehen.

Was ist Negative Masse?

Negative Masse ist nicht zu verwechseln mit Antimaterie! Antimaterie ist die Sammelbezeichnung für Antiteilchen und alles, was aus ihnen aufgebaut ist, so wie die “normale” Materie aus “normalen” Teilchen besteht. Antimaterie kann die Form von Atomen und Molekülen haben, die gebundene Systeme aus Positronen, Antiprotonen und ggf. Antineutronen sind. Auf die Schwerkraft wirken aber Antimaterie und “normale” Materie exakt gleich, beide Sorten besitzen die gleiche Masse und werden durch die Gravitation angezogen.

A real (anti)matter trap
A real (anti)matter trap

Was ist aber wenn es Materie gibt, die eine negative Masse besitzt – also Materie, die nicht immer anziehend wirkt? Nach Einstein’s Relativitätstheorie ist diese Sorte Materie zumindest denkbar. Gäbe es solche Materie mit negativer Masse oder könnte man solche herstellen, würde dies bedeuten, dass man die Raumzeit, die schließlich an die Masse gekoppelt ist, beeinflussen und verändern könnte. Möglich wäre dann z.B. die Erschaffung von Wurmlöchern, wie wir sie aus der Science Fiction kennen.

In den meisten Experimenten wird lediglich der Betrag der Masse gemessen. Es wird keine Information über das Vorzeichen erhoben. Schließlich funktionieren Einstein’s Gleichungen sowohl mit positivem als auch mit negativem Vorzeichen.

Es gibt daher Vermutungen, dass Antimaterie auch negative Masse besitzt. Diese Vermutung konnte allerdings noch nicht in Experimenten nachgewiesen werden. Diese Verifizierung des Vorzeichens, könnte bald am CERN mit Hilfe des Antiproton Decelerator erfolgen, sobald ausreichend Anti-Wasserstoff produziert und gespeichert werden konnte. Materie mit negativer Masse sollte dann der Gravitation entgegen von dieser abgestoßen werden oder sie zumindest neutralisieren.

Antiproton Decelerator (AD)

Der Antiproton Decelerator (AD) oder “Antiprotonen-Verzögerer” ist die weltweit einzige Anlage zur Herstellung von Antimaterie.

Die Maschine wird eingesetzt, um die mit hoher Energie durch einen Teilchenstrahl erzeugten Antiprotonen wieder zu verlangsamen und dadurch Antiwasserstoffatome zu erzeugen.

Vereinfacht ausgedrückt wirkte der Urknalls auch wie ein gewaltiger Beschleuniger zur Herstellung von Teilchen. Materie- und Antimaterieteilchen sind dabei zunächst in gleichem Maß entstanden. Die bislang ungelöste Frage ist allerdings, warum das Universum im wesentlichen nur aus Materie besteht und was mit all der Antimaterie passiert ist.

Antimaterie (Quelle: CERN)Im Gegensatz zu den riesigen Anlagen wie dem Large Hadron Collider (LHC) mit enormen 27 Kilometern Umfang, fällt der Ring des AD mit seinen 188 Metern Umfang recht bescheiden aus.

MS SQL Server: ETL mit Data Transformation Services

Screenshot von SQL Server Enterprise Manager mit SAP MaxDB
Screenshot von SQL Server Enterprise Manager mit SAP MaxDB

Kürzlich stand ich vor der Herausforderung einen Datenbestand von einem Datenbanksystem (SAP MaxDB) in ein anderes (Microsoft SQL Server) zu überführen. Das Unterfangen war manuell jedoch kaum zu realisieren, da die Datenbank mehrere hundert Tabellen und unzählige Datensätze umfasst.

Abhilfe schaffte der Microsoft SQL Server Enterprise Manager. Dort finden sich die Data Transformation Services wieder, Hilfsprogramme, die es erlaubt, ETL-Prozesse (Extract, Transform, Load) beim Import in oder Export aus einer Datenbank zu automatisieren. Dabei werden verschiedene Datenbanksysteme unterstützt, sofern diese über eine ODBC– oder eine OLE DB-Schnittstelle verfügen, was auch bei SAP MaxDB der Fall ist.

Konkret bestehen die Data Transformation Services (DTS) aus folgenden Komponenten:

  • DTS Import/Export Wizard: Assistenten, die es erlauben Daten von oder zu einem MS SQL Server zu übertragen, sowie Map Transformations ermöglichen.
  • DTS Designer: Ermöglicht das erstellen von komplexen ETL-Workflows einschließlich event-basierter Logik.
  • DTS Run Utility: Planung und Ausführung von DTS-Packages; auch via Kommandozeile möglich.
  • DTS Query Designer: Eine GUI für das Erstellen von SQL-Abfragen für DTS.