Skip Navigation
English version
Kontakte
Home - Nachrichten - 2012 - Herausforderung Datenflut

Feature, 28. Februar 2012

Herausforderung Datenflut

Die Experimente am European XFEL werden eine unglaubliche Menge an Daten produzieren – Daten, die gespeichert und zur Analyse bereitgestellt werden müssen. Die Gruppe von Chris Youngman stellt sich dieser Herausforderung.

Bevor Wissenschaftlerinnen und Wissenschaftler mit ihren Experimenten am European XFEL neue Erkenntnisse gewinnen können, werden sie enorme Datenmengen durchpflügen müssen. Alleine jeder der zweidimensionalen Pixeldetektoren wird pro Sekunde 10 bis 40 Gigabyte Daten liefern – das entspricht dem Speichervolumen von bis zu über sieben DVDs.

Nach derzeitigen Schätzungen werden alle sechs Instrumente zusammen im ersten Jahr 10 Millionen Gigabyte produzieren. Mit verbesserten Detektoren wird diese Datenmenge auf über 50 Millionen Gigabyte jährlich anwachsen. Zum Vergleich: Die vier Experimente am Large Hadron Collider erzeugen jedes Jahr 13 Millionen Gigabyte an Daten.

„Um dies zu veranschaulichen: 50 Millionen Gigabyte auf DVDs ergäben einen Turm von 12 Kilometern Höhe“, beschreibt Chris Youngman die Situation. Der britische Physiker leitet die Gruppe „Data Acquisition and Control Systems“, die für die Handhabung der enormen Datenmenge verantwortlich ist.

Chris Youngman, Leiter der Gruppe "Data Acquisition and Control Systems"

Ein Grund für die vielen Bits und Bytes, die der European XFEL produzieren wird, ist die hohe Anzahl an Blitzen, die die Anlage pro Sekunde liefern wird und die zu Bildern der untersuchten Proben führen können. Diese Blitzrate wird von keinem Röntgenlaser der Welt übertroffen.

Doch diese einmalige Eigenschaft erschwert auch den Umgang mit den Daten, wie Youngman erklärt: „Das extrem große Datenvolumen, das an Röntgenlasern erzeugt wird, erfordert einen neuen Ansatz, diese Daten zu verarbeiten.“ An herkömmlichen Röntgenlaboren können Wissenschaftlerinnen und Wissenschaftler ihre eigenen Festplatten mitbringen, die Daten drauf kopieren und die Daten dann daheim auswerten. Beim European XFEL macht die Datenfülle diesem Ansatz einen Strich durch die Rechnung.

„Am European XFEL werden die Daten sicher in einem großen Laufwerkssystem gespeichert. Dabei werden Technologien genutzt, die auch bei Firmen wie Google zum Einsatz kommen – Datenverarbeitung inklusive“, erklärt Youngman die technologische Infrastruktur. Die allgemeine Rechner-Infrastruktur wird die Forscherinnen und Forscher bei all ihren Aufgaben unterstützen – von der Positionierung der Proben wie etwa Nanokristalle, über das Speichern, Durchforsten und Analysieren der Daten bis hin visuellen Darstellung der Ergebnisse.

Und da die Computer-Technologie selbst beständig fortschreitet, müssen sowohl die Gruppe als auch die geplante Infrastruktur möglich flexibel bleiben: „Derzeit etwa schauen wir uns die Möglichkeiten an, Berechnungen mit Prozessoren von Graphikkarten durchzuführen. Unser Ziel ist es, den bestmöglichen Datenservice zu liefern, wenn der European XFEL einsatzbereit ist.“

Autor: Dirk Rathje

Gruppenmitglied Burkhard Heisen bei der Installation einer graphischen Prozessoren-Einheit in das Testsystem, das in DESYs Rechenzentrum gebaut wurde.
Zum Vergrößern auf das Bild klicken.

Technische Details

Einige Eckpunkte des geplanten Systems zur Datenhandhabung am European XFEL:

  • Die Größe des Speichersystems wird anfänglich 10 Millionen Gigabyte betragen und im Laufe der Zeit auf 50 Millionen Gigabyte und mehr anwachsen.
  • Wo immer möglich wird verlustfreie Datenkompression in Echtzeit zur Anwendung kommen. Für einzelne kleine Biomoleküle können die Daten auf bis zu 5 Prozent der anfänglichen Größe verringert werden. Wenn Festkörper, Flüssigkeiten oder Gase untersucht werden, sind nur weniger extreme Kompressionsraten möglich.
  • Roh- und Analysedaten werden für rund ein Jahr auf Festplatten gespeichert. Danach werden alle Rohdaten auf Bänder zu Langzeitarchivierung verschoben.
  • Rechencluster in der Nähe der Datenspeicher werden zur Datenanalyse verwendet. Schätzungen zufolge sind pro Million Gigabyte rund 2000 Prozessorkerne zur wissenschaftlichen Analyse notwendig. Für die 10 Millionen Gigabyte des ersten Jahres der Datennahme entspricht dies der Leistung von rund 2000 Desktoprechnern oder 200 größeren Server-Maschinen.