Schnellster Rechen-Cluster in Berlin-Brandenburg

Wissenschaftsministerin Sabine Kunst weiht den neuen Hochleistungsrechner Datura am Albert-Einstein-Institut ein

5. April 2011

2400 Prozessoren, 200 Server, 4,8 TeraByte Arbeitsspeicher und eine maximale Rechenleistung von 25,5 TeraFlops – das entspricht 25.500 Milliarden Rechenoperationen pro Sekunde – dies sind die Eigenschaften des neuen Hochleistungsrechners Datura, mit dessen Hilfe Wissenschaftler des Max-Planck-Instituts für Gravitationsphysik (Albert-Einstein-Institut/AEI) ab sofort die Zusammenstöße Schwarzer Löcher und Neutronensterne berechnen.

Mit dem neuen, schnelleren Rechen-Cluster können die Wissenschaftler der Arbeitsgruppe Numerische Relativitätstheorie längere Berechnungen durchführen und erwarten, damit neuen Phänomenen auf die Spur zu kommen. Zuletzt hatten die Wissenschaftler um Prof. Dr. Luciano Rezzolla mit ihren Berechnungen über das Bremsverhalten Schwarzer Löcher sowie über verschmelzende Neutronensterne für Aufsehen gesorgt. Mit Datura sollen nun auch Gravitationswellensignale noch genauer simuliert werden. Davon wird die internationale Gemeinschaft der Gravitationswellenforscher profitieren, die auf Grundlage der am AEI durchgeführten Berechnungen nach Signalen in den Detektordaten suchen.

Mit dem neuen Hochleistungs-Rechencluster können die Berechnungen einerseits 2-3 mal schneller durchgeführt werden als bisher, andererseits werden auch deutlich längere Simulationen möglich. „Wenn wir Neutronensterne und Schwarze Löcher länger in unserem „virtuellen Labor“ beobachten können, entdecken wir vermutlich auch neue Phänomene“, erläutert Prof. Luciano Rezzolla, Leiter der Arbeitsgruppe Numerische Relativitätstheorie. „Außerdem werden genauere Aussagen über die Wellenformen der Gravitationswellensignale möglich, da wir das gegenseitige Umkreisen von Neutronensternen und Schwarzen Löchern über einen längeren Zeitraum simulieren können.“

Die Einweihung des Hochleistungsrechners ist Highlight und Abschluss eines wissenschaftlichen Symposiums, das vom AEI am 5.4.2011 unter dem Titel „German High Performance Computing in the new Decade“ veranstaltet wird. Vertreter verschiedener Brandenburger und Berliner Forschungseinrichtungen treffen sich hier zum Erfahrungsaustausch über Anwendungen, Management und zukünftige Strategien in der Welt des Hochleistungsrechnens.

Hintergrundinformationen

Numerische Simulationen auf Datura

Die Arbeitsgruppe ‚Numerische Relativitätstheorie’ am AEI ist seit langem weltweit führend in der Simulation extremer kosmischer Phänomene: Auf den Hochleistungscomputern des Instituts kollabieren Neutronensterne zu Schwarzen Löchern, explodieren Sterne und umkreisen sich Schwarze Löcher auf spiralförmigen Bahnen. Allen diesen Ereignissen ist gemein, dass dabei Gravitationswellen entstehen: winzige Kräuselungen der Raumzeit, die Albert Einstein mit seiner Allgemeinen Relativitätstheorie vorhersagte, die aber bislang noch nicht direkt gemessen wurden. Die simulierten Wellensignale sollen helfen, die echten Gravitationswellen im Datendschungel der Detektoren zu entdecken. Denn: mit einem möglichst genauen ‚Fahndungsfoto’ steigen die Chancen, die Gravitationswellen tatsächlich in den Daten dingfest zu machen und zu identifizieren. Der neue Cluster ergänzt den bereits am Institut vorhandenen Supercomputer Damiana.

Weltweit gibt es derzeit fünf interferometrische Gravitationswellendetektoren: Das deutsch- britische Projekt GEO600 in der Nähe von Hannover, die drei LIGO Detektoren in den US- Bundesstaaten Louisiana und Washington, sowie das französisch-italienische Projekt Virgo in Pisa, Italien. Geplant ist darüber hinaus das Weltraumprojekt LISA (Laserinterferometer Space Antenna), das gemeinsam von ESA und NASA 2020 gestartet werden soll. Die Wissenschaftler des AEI sind an GEO600 und LISA federführend beteiligt und arbeiten im Rahmen der LIGO- Virgo-Collaboration eng mit den Kollegen der anderen Detektorprojekte zusammen.


Datura

Der Cluster-Computer wurde von der Gruppe Numerische Relativitätstheorie um Prof. Rezzolla auf den Namen Datura getauft – nach dem Gemeinen Stechapfel Datura stramonium. Dieses im Volksmund auch als ‚Teufelsapfel’ bekannte Nachtschattengewächs enthält verschiedene giftige und halluzinogene Inhaltsstoffe und bildet sehr attraktive weiße Blüten aus.

Der Cluster eignet sich insbesondere für Probleme, die sich gut parallelisieren lassen. Das sind Matrizenoperationen, wie sie maßgeblich auch für Simulationsberechnungen verwendet werden. Dafür müssen die einzelnen Knoten des Clusters besonders schnell und effektiv miteinander kommunizieren können. Die Berechnung der Einstein-Gleichungen für astrophysikalisch interessante Fälle wie etwa den Verschmelzungsprozess Schwarzer Löcher oder Neutronensterne ist das Hauptforschungsgebiet der Gruppe Numerische Relativitätstheorie.

Über die NEC Deutschland GmbH

Die 1987 gegründete NEC Deutschland GmbH mit Hauptsitz in Düsseldorf ist eine hundertprozentige Tochter der NEC Corporation. Das Produktportfolio umfasst Supercomputer und Hochleistungsrechner, Telekommunikations- und IT-Lösungen sowie biometrische Sicherheitslösungen für Unternehmen und staatliche Institutionen. www.nec.com/de

Die NEC Corporation ist ein weltweit führender Integrator von IT- und Netzwerktechnologien. Die komplexen und wechselnden Anforderungen der Kunden erfüllt NEC mit ihren hoch entwickelten Technologien und einer einzigartigen Kombination aus Produkten und Lösungen. Dabei profitiert NEC von ihrer langjährigen Erfahrung und dem synergetischen Einsatz globaler Unternehmensressourcen. NEC verfügt über die Kompetenz aus mehr als 100 Jahren Erfahrung in technologischer Innovation zur Unterstützung von Menschen, Unternehmen und der Gesellschaft.
Weitere Informationen finden Sie online unter http://www.nec.com.

Architektur des Cluster-Computers

Bei Datura handelt es sich um einen Hochleistung-Linux-Rechen-Cluster mit einer berechneten Höchstleistung von 25,5 TeraFlops. Als Flops bezeichnet man Gleitkommaoperationen pro Sekunde (engl.: floating point operations per second); sie sind ein Maß für die Geschwindigkeit des Clustercomputers.

Der Cluster besteht aus 200 Rechen-Knoten (Computenodes), mit jeweils zwei Intel XEON X5650 Westmere-Prozessoren mit einer Taktung von je 2.66 GHz, sowie einer Kapazität von 24 GB RAM und 300 GB lokalem Speicherplatz. Sechs Speicher-Knoten (Storagenodes) mit einer nutzbaren Gesamtkapazität von 192 TB speichern die enormen Mengen der Ergebnisdaten der numerischen Simulationsberechnungen in einem parallelen Filesystem (LUSTRE). Ein Anmeldeknoten (Headnode) ermöglicht den Benutzern die Kommunikation mit dem Cluster und dient als Managementbasis für das gesamte System. Drei Netzwerke sorgen andererseits für die Kommunikation der einzelnen Rechner untereinander. Jedes dieser Netzwerke hat seine ganz besondere Aufgabe.

Herzstück des Hochleistungsclusters ist das Netzwerk und damit der entsprechende Switch (Voltaire Grid Director 4700), der für die Interprozesskommunikation und die Anbindung der Storagekomponenten sorgt. In diesem Fall ist es ein Infinibandswitch mit einer Bandbreite von bis zu 51.8 Tbits/sec. Die beiden anderen Netzwerke dienen der Systemadministration des Clusters.

Da typische numerische Simulationen mehrere Tage oder gar Wochen dauern, werden die Rechenläufe (Jobs) durch ein Batchsystem verwaltet. Ein Benutzer meldet sich auf den Headnode an, um Programmcode zu kompilieren oder sich die meist graphisch dargestellten Ergebnisse anzeigen zu lassen. Einen ganz wesentlicher Teil für all die rechnerischen Aufgaben der Wissenschaftler des AEI übernimmt der am AEI entwickelte CACTUS-Code, eine flexible Auswahl von Tools, die es allen Wissenschaftlern ermöglicht, Problemstellungen computergerecht zu formulieren und Berechnungen ausführen zu lassen.

Weitere Informationen

Technische Daten

200 Computenodes mit je
2 Intel XEON X5650 Westmere Prozessoren à 2.66 GHz 24 GB RAM Memory
300 GB Speicherkapazität
3 Netzwerkanschlüssen (2 x Gigabit, 1 x Infiniband)
IPMI 2.0 card

6 Storagenodes mit je
2 Intel XEON F5520 Nehalem Prozessoren à 2.27 GHz
8 GB RAM Memory
2 x 300 GB interne disks RAID controller zum Anschluss von netto 30 TB Speicherkapazität (brutto: 2 x 12 SAS HDDs à 2 TB)
3 Netzwerkanschlüsse (2 x Gigabit, 1 x Infiniband)
IPMI 2.0 card
Redundante Stromversorgungseinheiten

1 Headnode (auch Anmelde- , Access- bzw. Managementknoten genannt) mit je
2 Intel XEON X5650 Westmere Prozessoren à 2.66 GHz
24 GB RAM Memory
300 GB Speicherkapazität

3 Netzwerkanschlüsse (2 x Gigabit, 1 x Infiniband)
IPMI 2.0 card
Redundante Stromversorgungseinheiten

Diese Komponenten sind in acht luftgekühlten 19" Schränken (Racks) untergebracht. Auf allen Rechnern ist das Betriebssystem CentOS 5.5 installiert.

Folgende systemnahe Software wird verwendet:
Compiler: Gnu C++, Intel C++, Intel Fortran
Libraries: BLAS, LAPACK, Intel MKL, Intel MPI, OpenMPI, MVAPICH
Programmiertool: Intel Cluster Tool Kit
Batch-system: SunGrid Engine
Monitoring: Nagios, Ganglia (Open Source)
Managementsoftware: Perceus (Open Source)

Details

Jeder Computenode hat drei Netzwerkschnittstellen für drei spezifische Netzwerke. Das wichtigste ist das Interprozess- und Storage-Netzwerk, das die Computenodes mit 80 Gbit/s bidirektional über einen leistungsstarken Infinibandswitch miteinander verbindet. Hier wird ein SilverStorm Switch der Fa. Voltaire eingesetzt. Er hat eine Backplane (BUS-Leiterplatte)-Kapazität von 51.8 Tbits/sec.

Das zweite Netzwerk dient dazu alle Komponenten des Clusters überhaupt bedienen zu können. Hier werden fünf Switche der Firma Netgear (5 x GSM7352 Sv2) eingesetzt. Um die Kabellängen möglichst kurz zu halten, hat man sich für eine Kaskadierung entschieden.

Es gibt ein weiteres Netzwerk, das nicht direkt dem Betrieb sondern zur Unterstützung des Systemadministrators bei der Früherkennung von Hardwarefehlern dient. Über die IPMI Karten, die in allen Knoten installiert sind, können Sensorwerte wie z.B. die CPU-Temperatur und Lüfterdrehzahl ausgelesen werden. Übersteigen die Werte vorgegebene Grenzen (thresholds), wird automatisch vom System eine Meldung, je nach Dringlichkeit eine E-Mail oder SMS, an den Systemadministrator gesandt. Dieser kann dann entsprechende Vorsorgemaßnahmen zur Vermeidung von Störungen treffen.

Intelligente Steckdosenleisten (power distributed unit: PDU) sind weitere Hilfsmittel für den Systemadministrator des Clusters.

Kühlung des Clusters

Dem AEI steht seit Ende 2006 ein großer Rechnerraum für die Hochleistungsrechner der Gruppe der Numerischen Relativitätstheorie zur Verfügung. Der Raum ist ca. 127 qm groß mit einer Höhe 3,40 m und einem Luftvolumen von ca. 433 m3. Der Raum wird über den doppelten Boden mit Kaltluft versorgt. Beim Aufstellen der Cluster folgt man dem Prinzip des Warm-/Kaltgangs. Kalte Luft wird aus dem Doppelboden durch Lochplatten im Kaltgang zu den Racks geblasen und strömt von vorne nach hinten durch die Geräte und gelangt aufgeheizt in den so genannten Warmbereich. Hier wird die warme Luft von den Kälteschränken angesaugt und gekühlt wieder unter den doppelten Boden geblasen und im Kaltgang abgegeben.

Für die Cluster der Numerischen Relativitätstheorie stehen zurzeit insgesamt 380kW Kälteleistung zur Verfügung; Datura benötigt davon ca. 90 kW. Der Rest wird für die anderen Cluster Damiana und Peyote und für weitere Systeme benötigt.

Stromversorgung

Die Stromversorgung für den Cluster DATURA erfolgt über PDUs, die an 32 A Leitungen angeschlossen sind. Eine zentrale USV (Unterbrechungsfreie Stromversorgung) sorgt im Falle eines Stromausfalls für max. 15 Minuten für eine durchgängige Stromversorgung der Storage- und Headnodes. Spezielle Software sorgt dafür, dass diese Rechner automatisch heruntergefahren und ausgeschaltet werden, sobald eine bestimmte Grenze der Verfügbarkeit an USV-Kapazität erreicht ist oder die Raumtemperatur einen bestimmten Wert übersteigt.

Weitere interessante Beiträge

Zur Redakteursansicht