Rechencluster am AEI

Das Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) betreibt Hochleistungsrechner in Potsdam, Hannover und Garching. In Hannover werden die Daten der Gravitationswellendetektoren nach Signalen durchsucht. Ein Großrechner in Potsdam ist ebenfalls der Analyse von Gravitationswellendaten gewidmet. Darüber hinaus werden in Potsdam und Garching komplexe numerische Simulationen durchgeführt.

Allzweck-Hochleistungs-Rechencluster

Seit 2003 unterhält das AEI High Performance Computing (HPC) Cluster für numerisch-relativistische Simulationen. Der erste Cluster, Peyote, wurde 2003 installiert und war damals auf Platz 395 der Top 500 Liste. In 2005 wurde der HPC Cluster Belladonna installiert, welcher 2007 von Damiana (Rang 192 der Top 500 Liste von 2007) ersetzt wurde. 2011 wurde Datura mit seinen 200 Nodes installiert. Der HPC-Cluster Minerva wurde von 2016 bis 2023 betrieben. Mit Minerva wurden hauptsächlich numerisch-relativistische Simulationen von verschmelzenden schwarzen Löchern und Neutronensternen durchgeführt, um die entstehende Gravitationswellenstrahlung zu berechnen. Bei der Installation lag der Cluster mit 365,0 TFlop/s auf Platz 463 der Top 500-Liste.

Sakura

Im Jahr 2019 nahm Sakura, ein HPC-Cluster bei der MPCDF, seinen Betrieb auf. Numerisch-relativistische Simulationen astrophysikalischer Ereignisse, die sowohl Gravitationswellen als auch elektromagnetische Strahlung erzeugen, werden auf Sakura durchgeführt. Bild: © K. Zilker (MPCDF)

Urania

2023 wurde der HPC-Cluster Urania bei der Max Planck Computing and Data Facility in Betrieb genommen. Urania wird für genaue Untersuchungen von Doppelsystemen schwarzer Löcher und den von ihnen ausgesandten Gravitationswellen genutzt. Bild: © L. Hüdepohl (MPCDF)

Im Jahr 2019 nahm Sakura, ein HPC-Cluster an der Max Planck Computing and Data Facility (MPCDF), seinen Betrieb auf. Numerisch-relativistische Simulationen astrophysikalischer Ereignisse, die sowohl Gravitationswellen als auch elektromagnetische Strahlung erzeugen – z.B. Verschmelzungen von Neutronensternen – werden auf Sakura durchgeführt. Die 9,600 Cores von Sakura sind in ein schnelles Omnipath-100-Netzwerk und 10 GB Ethernet-Verbindungen integriert. Es besteht aus Kopfknoten mit Intel Xeon Silver 10-Kern-Prozessoren und 192 GB bis 384 GB Hauptspeicher sowie Rechenknoten mit Intel Xeon Gold 6148 CPUs.

Im Jahr 2023 wurde der HPC-Cluster Momiji bei der Max Planck Computing and Data Facility in Garching in Betrieb genommen. Er verfügt über 5.904 Rechenkerne und 1,8 Terabyte Arbeitsspeicher. Momiji wird für numerisch-relativistische Simulationen von astrophysikalischen Ereignissen eingesetzt, die sowohl Gravitationswellen als auch elektromagnetische Strahlung erzeugen – zum Beispiel Verschmelzungen von Neutronensternen, Kollaps und Explosion von Sternkernen und Gammastrahlenausbrüche. Momiji besteht aus 82 Rechenknoten mit jeweils 2 Intel Xeon Platinum 8360Y Prozessoren mit 36 Kernen und 256 GB RAM.

2023 wurde der HPC-Cluster Urania bei der Max Planck Computing and Data Facility in Betrieb genommen. Mit 6.048 Rechenkernen und 22 TeraByte Speicher ist Urania genauso leistungsfähig wie sein Vorgänger, benötigt aber zum Betrieb nur halb so viel Strom. Urania wird für genaue Untersuchungen von Doppelsystemen schwarzer Löcher und den von ihnen ausgesandten Gravitationswellen genutzt. Urania besteht aus 84 Rechenknoten, jeder mit 2x 36 Core Intel Xeon Platinum 8360Y Prozessoren und 256 GB RAM.

Datenanalyse-Rechencluster

Der Computercluster Atlas am AEI Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse genutzte Großrechner.

Atlas am AEI in Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse gebaute Computercluster.

© Massimo Fiorito/AEI

Atlas am AEI in Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse gebaute Computercluster.

© Massimo Fiorito/AEI

Atlas wurde im Mai 2008 eingeweiht und bestand zu diesem Zeitpunkt aus 1344 Quadcore-Rechenknoten. Einen Monat später zog er auf Platz 58 in der Top-500-Liste der schnellsten Rechner der Welt ein; damit war er außerdem der sechstschnellste Computer in Deutschland.

Er war zudem der schnellste Computer der Welt, der Ethernet als Netzwerktechnologie einsetzte. Dies ist bemerkenswert, weil Ethernet eine relativ preiswerte Netzwerktechnologie ist. Die schnelleren Computer der Top-500-Liste nutzen allesamt deutlich teurere Verbindungen wie Infinband oder andere proprietäre Technologien. In anderen Worten: gemessen am Preis-Leistungsverhältnis war Atlas weltweit führend. In Anerkennung dafür erhielt Atlas einen „InfoWorld 100 Award“ als eine der 100 besten IT-Lösungen im Jahr 2008.

Derzeit hat Atlas mehr als 50.000 physische CPU-Kerne (etwa 90.000 logische) in 3.000 Servern. Diese Server reichen von 2000 älteren 4-Kern-Systemen mit je 16 GB RAM, 550 Systemen mit 28 CPU-Kernen und 192 GB RAM bis hin zu den neuesten 444 mit 64 CPU-Kernen und je 512 GB RAM. Zusätzlich gibt es etwa 350 hochleistungsfähige, spezialisierte Grafikkarten (GPUs) parallel zu den etwa 2.000 vorhandenen „normalen“ Grafikkarten für Spezialanwendungen. Damit ergibt sich eine theoretische Spitzenrechenleistung von Atlas von mehr als 2 PFLOP/s.

Alle diese Computer sind über ein gemeinsames Gigabit-Ethernet mit allen anderen Rechen- und Speicherservern verbunden. Für die Verbindung aller Rechenknoten wurden insgesamt 15 Kilometer Ethernet-Kabel verwendet. Die Gesamtbandbreite beträgt ca. 20 Terabit/s.

Hypatia, der neue High-Throughput-Computercluster am Albert-Einstein-Institut in Potsdam.

© A. Okulla/Max-Planck-Institut für Gravitationsphysik

Hypatia, der neue High-Throughput-Computercluster am Albert-Einstein-Institut in Potsdam.

© A. Okulla/Max-Planck-Institut für Gravitationsphysik

Neben dem Atlas-Cluster in Hannover betreibt das AEI einen Computer-Cluster in Potsdam. Nach Merlin (2002-2008), Morgane (2007-2014) und Vulcan (2013 - 2019) wurde im Jahr 2019 Hypatia mit rund 9.000 Prozessorkernen (in 16-Core AMD EPYC CPUs) installiert. Hypatia dient der Entwicklung von Wellenformmodellen für aktuelle und zukünftige Gravitationswellendetektoren sowie der Analyse von Gravitationswellendaten, um Rückschlüsse auf die Eigenschaften von Schwarzen Löchern und Neutronensternen zu ziehen und die Allgemeine Relativitätstheorie zu testen. Im Jahr 2022 wurde Hypatia um etwa 4000 Rechenkerne und 32 TB RAM erweitert. Die Erweiterung besteht aus 64 Rechenknoten mit Dual-Socket-AMD-“Milan“-Prozessoren (Epyc 3. Generation, 32 Kerne pro CPU), wobei jeder Knoten 512 GB Arbeitsspeicher bietet.

In der LIGO-Virgo-Kollaboration wird Hypatia genutzt um neue Methoden zu entwickeln und zu testen, für großangelegte Monte-Carlo Simulationen, die Entwicklung von Wellenformen und die Untersuchung systematischer Abweichungen. Als Teil des LISA-Konsortiums beteiligen sich AEI-Wissenschaftler:innen derzeit an der Entwicklung des Science Case für LISA. Im Rahmen der European Pulsar Timing Array-Kollaboration suchen sie nach Gravitationswellensignalen von Binärsystemen supermassiver schwarzer Löcher im Nano-Hertz-Bereich.

Wie Atlas am AEI Hannover wurde auch Hypatia für High Throughput Computing (HTC) designed, und eignet sich am besten dafür, viele voneinander unabhängige Operationen parallel auszuführen. Hypatia wurde aus Standardteilen gebaut und nutzt ein Gigabit-Ethernet-Network. Die laufenden Rechenprozesse können insgesamt bis zu 34 TB Speicher nutzen und sie verwenden 400 TB Plattenspeicher. Für die Zuordnung von Ressourcen zu den Arbeitsaufträgen wird HTCondor als batch scheduler genutzt.

Im Rahmen der LIGO Scientific Collaboration (LSC) dient Hypatia auch als Testumgebung für Software sowie für alternative Prozessorarchitekturen, Speicherkonzepte und Betriebssysteme.

Grafikprozessor-Cluster

Im Jahr 2021 wurde der GPU-Cluster Saraswati installiert. Saraswati dient in erster Linie der Entwicklung und Anwendung von Methoden des maschinellen Lernens für die Parameterinferenz in derzeit laufenden Detektoren und der Entwicklung von GPU-beschleunigten Inferenzcodes für zukünftige Detektoren. Er besteht aus 8 Nvidia A100 GPUs mit 40 GB RAM pro GPU, 2 Epyc 7713 64-Kern-CPUs und 1 TB System-RAM. Er verfügt über ein dediziertes Speichersystem mit 12 TB Festplattenspeicher. Eine zweite GPU-Maschine, Lakshmi, wurde Anfang 2023 installiert, mit einer ähnlichen Konfiguration wie Saraswati, aber doppelt so viel RAM pro GPU und für das System.