Computercluster Atlas

Computercluster Atlas

Der High-Troughput-Computing-Cluster Atlas ist der weltweit größte und leistungsfähigste Großrechner für die Suche nach Gravitationswellen und die dafür notwendige Datenanalyse. Atlas bietet eine einzigartige Umgebung für Wissenschaftler*innen, um Rechenprobleme zu lösen, die für einen einzelnen oder wenige Computer zu groß sind.

Infrastruktur

Atlas befindet sich in einem 450 Quadratmeter großen Untergeschoss im Laborgebäude des Max-Planck-Instituts. Um einen kontinuierlichen und sicheren Rund-um-die-Uhr-Betrieb zu ermöglichen, wird die Stromversorgung durch zwei unterbrechungsfreie Notstromanlagen gewährleistet. Vier Kältemaschinen übertragen die Wärme aus dem Clusterkeller nach außen. Mit einer Gesamtleistung von etwa einem Megawatt können diese Systeme bei einem externen Stromausfall für den Cluster unter Volllast etwa sechs Minuten Strom und Kühlung bereitstellen.

Aktueller Status

Anfang 2020 wurde der Cluster auf mehr als 50.000 physische CPU-Kerne (etwa 90.000 logische) in 3.000 Servern erweitert. Diese Server reichen von 2000 älteren 4-Kern-Systemen mit je 16 GB RAM, 550 Systemen mit 28 CPU-Kernen und 192 GB RAM bis hin zu den neuesten 444 mit 64 CPU-Kernen und je 512 GB RAM. Zusätzlich wurden etwa 350 hochleistungsfähige, spezialisierte Grafikkarten (GPUs) parallel zu den etwa 2.000 vorhandenen Karten für Spezialanwendungen hinzugefügt. Diese Ergänzungen erhöhen die theoretische Spitzenrechenleistung von Atlas auf mehr als 2 PFLOP/s.

Alle diese Computer sind über ein gemeinsames Gigabit-Ethernet mit allen anderen Rechen- und Speicherservern verbunden. Für die Verbindung aller Rechenknoten wurden insgesamt 15 Kilometer Ethernet-Kabel verwendet. Die Gesamtbandbreite beträgt ca. 20 Terabit/s.

Atlas am AEI in Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse gebaute Computercluster.

Für jeden Datensatz (Detektordaten, Zwischenprodukte, Endergebnisse) gibt es eine eigene Klasse von Speicherservern mit Tausenden von Festplatten- und Flash-Laufwerken. Während Detektordaten auf Servern verfügbar sind, die für massiv parallele Lesezugriffe optimiert sind, werden temporäre oder Zwischenprodukte entweder lokal auf den Rechenknoten oder auf dedizierten „scratch“-Servern gespeichert, die für schnelles Lesen und Schreiben optimiert sind.

Endergebnisse und alles, was für die interaktive Nutzung und Entwicklung benötigt wird, kann in den „home“-Dateisystemen der Benutzer gespeichert werden, die von einer hierarchischen Speicherarchitektur unterstützt werden. Ein großer Daten-Cache, bestehend aus einer Mischung aus Festplatten- und Flash-Laufwerken, bietet schnellen Zugriff auf häufig verwendete Dateien. Im Hintergrund speichert ein Roboter-Bandarchiv dauerhaft bis zu 15 Petabyte alter und selten genutzter Daten.

Gravitationswellen-Datenanalyse

Das wichtigste Forschungsgebiet der Abteilung „Beobachtungsbasierte Relativität und Kosmologie“ ist die Entwicklung und Implementierung von Datenanalyse-Verfahren für die Suche nach den verschiedenen erwarteten Quellen von Gravitationswellen. Dazu zählen Ausbrüche (bursts), stochastische Rauschquellen (stochastic gravitational waves), kontinuierliche Wellen (continuous waves) und Signale von der Annäherung und Verschmelzung kompakter Himmelskörper (inspirals) in den Daten der erdgebundenen Gravitationswellen-Detektoren.

Die Suche nach schwachen Gravitationswellen-Signalen ist sehr rechenintensiv. In einigen Fällen macht der Mangel an Rechenressourcen die Suche wesentlich unempfindlicher, als es mit den gleichen Daten, aber mit unendlicher Rechenleistung möglich wäre. Aus diesem Grund ist eine der zentralen Aktivitäten der Abteilung der Unterhalt und  die Optimierung von Atlas.

Atlas spielt auch eine wichtige Rolle für das verteilte freiwillige Computerprojekt Einstein@Home, das von der Öffentlichkeit gespendete Rechenleistung nutzt, um nach den Gravitationswellen und der elektromagnetischer Strahlung von Neutronensternen zu suchen. Dabei wird Atlas für die Erstellung von Datensätzen und neuen Suchläufen sowie für die Analyse der Ergebnisse von Einstein@Home verwendet.

Betriebssystem und High-Troughput-Computing

Atlas ist ein High-Troughput-Computing-(HTC)-Cluster, d.h. er ist gut geeignet, eine große Anzahl von weitgehend unabhängigen Aufgaben effizient auszuführen. Das Hauptziel des Designs war es, einen sehr hohen Datendurchsatz bei sehr niedrigen Kosten zu erreichen, vor allem bei „trivial parallelen“ Analysen. Atlas kann aber auch hochparallele Low-Latency-Codes wie die Parameterschätzung für Gravitationswellen-Signale effizient ausführen.

„Kabelgewirr“ am zentralen Switch mit 768 Netzwerkports, der alle Server zu einem Netzwerk verbindet. Jedes Kabel kann bis zu 10 Gb/s transferieren.

Etwa 40 Benutzer sind derzeit auf Atlas aktiv. Ihre Rechenaufträge werden mittels des Batch-Schedulers HTCondor an die Atlas-Knoten übergeben. Interaktive Datenanalyse und die Implementierung neuer Methoden ist auf einer von vier dedizierten Maschinen („head nodes“) möglich.

Das Betriebssystem ist Debian GNU/Linux und wurde für die Vollautomatisierung (mit FAI) optimiert. So wird beispielsweise ein neuer oder reparierter Server innerhalb weniger Minuten nach dem Einschalten vollständig eingerichtet und funktioniert danach, ohne dass die Maschine manuell fertiggestellt werden muss.

Auszeichnungen und Geschichte

Atlas wurde von Bruce Allen, Carsten Aulbert und Henning Fehrmann entworfen und ist in erster Linie für die Analyse von Gravitationswellen-Detektordaten gedacht. Atlas wurde im Mai 2008 offiziell mit 1344 Quad-Core-Compute-Nodes eingeweiht. Einen Monat später wurde er auf der TOP500-Liste der schnellsten Computer der Welt im Juni 2008 auf Platz 58 geführt. Damit war er damals auch der sechstschnellste Computer in Deutschland.

Atlas Wiki

Aktuelle Nachrichten und detaillierte Informationen über Atlas, seine Rechenknoten, Speicherserver und deren Verwendung finden Sie im Atlas Wiki.

Zur Redakteursansicht