Mitarbeiter

Dr. Carsten Aulbert
Dr. Carsten Aulbert
Telefon:+49 511 762-17185Fax:+49 511 762-2784
Dr. Henning Fehrmann
Dr. Henning Fehrmann
Telefon:+49 511 762-17135Fax:+49 511 762-2784
Alexander Post
Alexander Post
Telefon:+49 511 762-17069Fax:+49 511 762-2784

High-throughput-Computing

Header image 1373023481

Der Computercluster Atlas

Der High-Troughput-Computing-Cluster Atlas der Abteilung „Beobachtungsbasierte Relativität und Kosmologie“ des Max-Planck-Instituts für Gravitationsphysik in Hannover ist der weltweit größte und leistungsfähigste für die Suche nach Gravitationswellen und die dafür notwendige Datenanalyse. Atlas bietet eine einzigartige Umgebung für Wissenschaftler*innen, um Rechenprobleme zu lösen, die für einen einzelnen oder wenige Computer zu groß sind.
Atlas am AEI in Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse gebaute <span>Computercluster.</span> Bild vergrößern
Atlas am AEI in Hannover ist der weltweit leistungsfähigste zur Gravitationswellen-Datenanalyse gebaute Computercluster. [weniger]

Infrastruktur

Atlas befindet sich in einem 450 Quadratmeter großen Untergeschoss im Laborgebäude des Max-Planck-Instituts. Um einen kontinuierlichen und sicheren Rund-um-die-Uhr-Betrieb zu ermöglichen, wird die Stromversorgung durch zwei unterbrechungsfreie Notstromanlagen gewährleistet. Vier Kältemaschinen übertragen die Wärme aus dem Clusterkeller nach außen. Mit einer Gesamtleistung von etwa einem Megawatt können diese Systeme bei einem externen Stromausfall für den Cluster unter Volllast etwa sechs Minuten Strom und Kühlung bereitstellen.

Aktueller Status

Vor kurzem wurde der Cluster auf etwa 40.000 CPU-Kerne erweitert, die in etwa 2.500 Rechnern untergebracht sind. Diese fallen meist in die Kategorien kleiner, kostengünstiger Maschinen mit vier oder sechs Kernen (vergleichbar mit anständigen Heimcomputern) oder großer Server mit Dutzenden von CPU-Kernen und mehr Speicher (550 Knoten mit 28 physikalischen CPU-Kernen und 128 Gigabyte Speicher). Darüber hinaus haben wir etwa 2.000 GPUs installiert, auf denen dedizierte Programme ausgeführt werden können. Die theoretische Spitzenrechenleistung von Atlas beträgt mehr als ein petaFLOP/s.

„Kabelgewirr“ am zentralen Switch mit 768 Netzwerkports, der alle Server zu einem Netzwerk verbindet. Jedes Kabel kann bis zu 10 Gb/s transferieren. Bild vergrößern
„Kabelgewirr“ am zentralen Switch mit 768 Netzwerkports, der alle Server zu einem Netzwerk verbindet. Jedes Kabel kann bis zu 10 Gb/s transferieren. [weniger]

Alle diese Computer sind über ein gemeinsames Gigabit-Ethernet mit allen anderen Rechen- und Speicherservern verbunden. Für die Verbindung aller Rechenknoten wurden insgesamt 15 Kilometer Ethernet-Kabel verwendet. Die Gesamtbandbreite beträgt ca. 20 Terabit/s.

Für jeden Datensatz (Detektordaten, Zwischenprodukte, Endergebnisse) gibt es eine eigene Klasse von Speicherservern mit Tausenden von Festplatten- und Flash-Laufwerken. Während Detektordaten auf Servern verfügbar sind, die für massiv parallele Lesezugriffe optimiert sind, werden temporäre oder Zwischenprodukte entweder lokal auf den Rechenknoten oder auf dedizierten „scratch“-Servern gespeichert, die für schnelles Lesen und Schreiben optimiert sind.

Endergebnisse und alles, was für die interaktive Nutzung und Entwicklung benötigt wird, kann in den „home“-Dateisystemen der Benutzer gespeichert werden, die von einer hierarchischen Speicherarchitektur unterstützt werden. Ein großer Daten-Cache, bestehend aus einer Mischung aus Festplatten- und Flash-Laufwerken, bietet schnellen Zugriff auf häufig verwendete Dateien. Im Hintergrund speichert ein Roboter-Bandarchiv dauerhaft bis zu 4,5 Petabyte alter und selten genutzter Daten.

Gravitationswellen-Datenanalyse

Das wichtigste Forschungsgebiet der Abteilung „Beobachtungsbasierte Relativität und Kosmologie“ ist die Entwicklung und Implementierung von Datenanalyse-Verfahren für die Suche nach den verschiedenen erwarteten Quellen von Gravitationswellen. Dazu zählen Ausbrüche (bursts), stochastische Rauschquellen (stochastic gravitational waves), kontinuierliche Wellen (continuous waves) und Signale von der Annäherung und Verschmelzung kompakter Himmelskörper (inspirals) in den Daten der erdgebundenen Gravitationswellen-Detektoren.

Die Suche nach schwachen Gravitationswellen-Signalen ist sehr rechenintensiv. In einigen Fällen macht der Mangel an Rechenressourcen die Suche wesentlich unempfindlicher, als es mit den gleichen Daten, aber mit unendlicher Rechenleistung möglich wäre. Aus diesem Grund ist eine der zentralen Aktivitäten der Abteilung der Unterhalt und  die Optimierung von Atlas.

Atlas spielt auch eine wichtige Rolle für das verteilte freiwillige Computerprojekt Einstein@Home, das von der Öffentlichkeit gespendete Rechenleistung nutzt, um nach den Gravitationswellen und der elektromagnetischer Strahlung von Neutronensternen zu suchen. Dabei wird Atlas für die Erstellung von Datensätzen und neuen Suchläufen sowie für die Analyse der Ergebnisse von Einstein@Home verwendet.

Betriebssystem und High-Troughput-Computing

Atlas ist ein High-Troughput-Computing-(HTC)-Cluster, d.h. er ist gut geeignet, eine große Anzahl von weitgehend unabhängigen Aufgaben effizient auszuführen. Das Hauptziel des Designs war es, einen sehr hohen Datendurchsatz bei sehr niedrigen Kosten zu erreichen, vor allem bei „trivial parallelen“ Analysen. Atlas kann aber auch hochparallele Low-Latency-Codes wie die Parameterschätzung für Gravitationswellen-Signale effizient ausführen.

Etwa 40 Benutzer sind derzeit auf Atlas aktiv. Ihre Rechenaufträge werden mittels des Batch-Schedulers HTCondor an die Atlas-Knoten übergeben. Interaktive Datenanalyse und die Implementierung neuer Methoden ist auf einer von vier dedizierten Maschinen („head nodes“) möglich.

Das Betriebssystem ist Debian GNU/Linux und wurde für die Vollautomatisierung optimiert. So wird beispielsweise ein neuer oder reparierter Server innerhalb weniger Minuten nach dem Einschalten vollständig eingerichtet und funktioniert danach, ohne dass die Maschine manuell fertiggestellt werden muss.

Auszeichnungen und Geschichte

Atlas wurde von Bruce Allen, Carsten Aulbert und Henning Fehrmann entworfen und ist in erster Linie für die Analyse von Gravitationswellen-Detektordaten gedacht. Atlas wurde im Mai 2008 offiziell mit 1344 Quad-Core-Compute-Nodes eingeweiht. Einen Monat später wurde er auf der TOP500-Liste der schnellsten Computer der Welt im Juni 2008 auf Platz 58 geführt. Damit war er damals auch der sechstschnellste Computer in Deutschland.

Atlas Wiki

Aktuelle Nachrichten und detaillierte Informationen über Atlas, seine Rechenknoten, Speicherserver und deren Verwendung finden Sie im Atlas Wiki.

 
Zur Redakteursansicht
loading content