Rechencluster am AEI

Das Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) betreibt Hochleistungsrechner in Potsdam, Hannover und Garching. In Hannover werden die Daten der Gravitationswellendetektoren nach Signalen durchsucht. Ein Großrechner in Potsdam ist ebenfalls der Analyse von Gravitationswellendaten gewidmet. Darüber hinaus werden in Potsdam und Garching komplexe numerische Simulationen durchgeführt.

Allzweck-Hochleistungs-Rechencluster

Seit 2003 unterhält das AEI High Performance Computing (HPC) Cluster. Der erste Cluster, Peyote, wurde 2003 installiert und war damals auf Platz 395 der Top 500 Liste. In 2005 wurde der HPC Cluster Belladonna installiert, welcher 2007 von Damiana (Rang 192 der Top 500 Liste von 2007) ersetzt wurde. 2011 wurde Datura mit seinen 200 Nodes installiert.

.

Minerva

Minerva

Bild: AEI / Armin Okulla

Sakura

Sakura

2016 wurde der HPC-Cluster Minerva in Betrieb genommen. Mit Minerva werden hauptsächlich numerisch-relativistische Simulationen von verschmelzenden schwarzen Löchern und Neutronensternen durchgeführt, um die entstehende Gravitationswellenstrahlung zu berechnen. Der Cluster wurde mit 365,0 TFlop/s auf Platz 463 der Top 500 Liste eingeordnet. Minerva besitzt 594 Nodes (Dual-socket, 8 Kern Intel Haswell E5-2630v3 (2.40GHz)) mit 9504 Kernen, welche jeweils mit 4GB RAM ausgestattet sind. Es existieren 2 BeeGFS Festplattenspeicher mit insgesamt 500TB.

Im Jahr 2019 nahm Sakura, ein HPC-Cluster an der Max Planck Computing and Data Facility (MPCDF), seinen Betrieb auf. Numerisch-relativistische Simulationen astrophysikalischer Ereignisse, die sowohl Gravitationswellen als auch elektromagnetische Strahlung erzeugen - z.B. Verschmelzungen von Neutronensternen - werden auf Sakura durchgeführt. Der 11.600 CPU-Core-Computer-Cluster ist in ein schnelles Omnipath-100-Netzwerk und 10 GB Ethernet-Verbindungen integriert. Es besteht aus Kopfknoten mit Intel Xeon Silver 10-Kern-Prozessoren und 192GB bis 384GB Hauptspeicher sowie Rechenknoten mit Intel Xeon Gold 6148 CPUs.

Datenanalyse-Rechencluster

Der Computercluster Atlas am AEI Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse genutzte Großrechner.

Atlas wurde im Mai 2008 eingeweiht und bestand zu diesem Zeitpunkt aus 1344 Quadcore-Rechenknoten. Einen Monat später zog er auf Platz 58 in der Top-500-Liste der schnellsten Rechner der Welt ein; damit war er außerdem der sechstschnellste Computer in Deutschland.

Er war zudem der schnellste Computer der Welt, der Ethernet als Netzwerktechnologie einsetzte. Dies ist bemerkenswert, weil Ethernet eine relativ preiswerte Netzwerktechnologie ist. Die schnelleren Computer der Top-500-Liste nutzen allesamt deutlich teurere Verbindungen wie Infinband oder andere proprietäre Technologien. In anderen Worten: gemessen am Preis-Leistungsverhältnis war Atlas weltweit führend. In Anerkennung dafür erhielt Atlas einen „InfoWorld 100 Award“ als eine der 100 besten IT-Lösungen im Jahr 2008.

Derzeit hat Atlas mehr als 50.000 physische CPU-Kerne (etwa 90.000 logische) in 3.000 Servern. Diese Server reichen von 2000 älteren 4-Kern-Systemen mit je 16 GB RAM, 550 Systemen mit 28 CPU-Kernen und 192 GB RAM bis hin zu den neuesten 444 mit 64 CPU-Kernen und je 512 GB RAM. Zusätzlich gibt es etwa 350 hochleistungsfähige, spezialisierte Grafikkarten (GPUs) parallel zu den etwa 2.000 vorhandenen „normalen“ Grafikkarten für Spezialanwendungen. Damit ergibt sich eine theoretische Spitzenrechenleistung von Atlas von mehr als 2 PFLOP/s.

Alle diese Computer sind über ein gemeinsames Gigabit-Ethernet mit allen anderen Rechen- und Speicherservern verbunden. Für die Verbindung aller Rechenknoten wurden insgesamt 15 Kilometer Ethernet-Kabel verwendet. Die Gesamtbandbreite beträgt ca. 20 Terabit/s.

Neben dem Atlas-Cluster in Hannover betreibt das AEI einen Computer-Cluster in Potsdam. Nach Merlin (2002-2008), Morgane (2007-2014) und Vulcan (2013 - 2019) wurde im Jahr 2019 Hypatia mit rund 9.000 Prozessorkernen (in 16-Core AMD EPYC CPUs) installiert. Hypatia dient der Entwicklung von Wellenformmodellen für aktuelle und zukünftige Gravitationswellendetektoren sowie der Analyse von Gravitationswellendaten, um Rückschlüsse auf die Eigenschaften von Schwarzen Löchern und Neutronensternen zu ziehen und die Allgemeine Relativitätstheorie zu testen. Im Jahr 2022 wurde Hypatia um etwa 4000 Rechenkerne und 32 TB RAM erweitert. Die Erweiterung besteht aus 64 Rechenknoten mit Dual-Socket-AMD-“Milan“-Prozessoren (Epyc 3. Generation, 32 Kerne pro CPU), wobei jeder Knoten 512 GB Arbeitsspeicher bietet.

In der LIGO-Virgo-Kollaboration wird Hypatia genutzt um neue Methoden zu entwickeln und zu testen, für großangelegte Monte-Carlo Simulationen, die Entwicklung von Wellenformen and die Untersuchung systematischer Abweichungen. Als Teil des LISA-Konsortiums beteiligen sich AEI-Wissenschaftler*innen derzeit an der Entwicklung des Science Case für LISA. Im Rahmen der European Pulsar Timing Array-Kollaboration suchen sie nach Gravitationswellensignalen von Binärsystemen supermassiver schwarzer Löcher im nano Hertz-Bereich. 

Wie Atlas am AEI Hannover wurde auch Hypatia für High Throughput Computing (HTC) designed, und eignet sich am besten dafür, viele von einander unabhängige Operationen parallel auszuführen. Hypatia wurde aus Standardteilen gebaut und nutzt ein Gigabit-Ethernet-Network. Die laufenden Rechenprozesse können insgesamt bis zu 34 TB Speicher nutzen und sie verwenden 400 TB Plattenspeicher. Für die Zuordnung von Ressourcen zu den Arbeitsaufträgen wird HTCondor als batch scheduler genutzt.

Im Rahmen der LIGO Scientific Collaboration (LSC) dient Hypatia auch als Testumgebung für Software sowie für alternative Prozessorarchitekturen, Speicherkonzepte und Betriebssysteme.

Zur Redakteursansicht