Enorme Effizienzsteigerung bei Nutzung des Grid

Neue Software der Gravitationsphysik und Genomforschung reduziert den Arbeitsaufwand um 95%. Präsentation vom 22. bis 24. März in Dresden.

19. März 2010
Astrophysiker und Genomforscher stellen in Dresden Software-Tools vor, die den Zugang zu den immensen Rechenkapazitäten des Grid erleichtern. Die automatische Verteilung und Kontrolle von Computerprogrammen im Grid ermöglicht überhaupt erst dessen intensive Nutzung. Damit rückt Grid-Computing für jedermann in den Bereich des Möglichen. Die Ergebnisse werden jetzt erstmals auf dem „All-Hands-Meeting“, der wichtigsten deutschen Konferenz zum Grid-Computing, vorgestellt. Das All-Hands-Meeting findet vom 22.-24. März an der TU Dresden statt: Hörsaalzentrum, Bergstraße 64, 01062 Dresden

Hintergrundinformationen

Seit 2004 fördert das Bundesministerium für Bildung und Forschung (BMBF) die Vernetzung von Rechenzentren im Rahmen der D-Grid-Initiative. Unter Grid versteht man ein hochgradig heterogenes Netzwerk von Computern. Dieses Netzwerk umfasst sowohl Rechenzentren an Universitäten und Forschungseinrichtungen als auch einzelne PCs. Ziel der Grid-Projekte ist die gemeinsame, effektive Nutzung dieser Computerressourcen, weil diese selten 100%ig ausgelastet sind.

Die Arbeitsgruppe von Beck-Ratzka am AEI setzt Grid-Ressourcen seit 2007 erfolgreich für die Datenanalyse ein. Im Rahmen der weltweit durchgeführten Analyse von Daten aus den Gravitationswellenobservatorien macht die Nutzung der D-Grid-Ressourcen den mit Abstand größten Anteil aus. Seit seiner Gründung im Jahr 1995 ist das AEI federführend an der Entwicklung von Software im Rahmen des Grid-Computing beteiligt. Hierzu zählt auch das Grid Application Toolkit (GAT) mit dem das AEI bisher unzugängliche D-Grid-Ressourcen verfügbar machen wird.

Neben diesen Anwendungen in der Astrophysik waren Grid-Ressourcen entscheidend in einer internationalen Kooperation von Knoch, um in einer Gruppe von mehr als 20.000 Menschen DNA Sequenzen zu finden, die vor allem für die Behandlung chronischer Lungenkrankheiten entscheidende Impulse liefern. Tobias A. Knoch arbeitet schon seit 1996 auf parallelen Supercomputern um die dreidimensionale Organisation der DNA und des gesamten Zellkerns genau zu verstehen. Für seine internationale Arbeitsgruppe macht Gridnutzung dabei mittlerweile den größten Teil der verwendeten Ressourcen für die Analyse DNA-Sequenzmustern bzw. das Finden und Analysieren von genetischen Indikatoren von Krankheiten aus.

Mit Hilfe einer automatisierten Methode zur Verteilung der verschiedenen Datenanalysen auf die dezentralen Rechner vereinfacht die Arbeitsgruppe von Alexander Beck-Ratzka jetzt die Nutzung ruhender Ressourcen. Im Rahmen der vom BMBF geförderten Projekte AstroGrid-D, DGI-1 und DGI- 2 wurde das am AEI im EU-Projekt GridLab entwickelte GAT (Grid Application Toolkit) soweit vervollständigt, dass es nun für die einfache Verteilung von Programmen im Grid genutzt werden kann.

Die Arbeitsgruppe von Tobias A. Knoch hat nicht nur ein eigenes Grid mit Desktop-Computern (Erasmus Computing Grid) aufgebaut, sondern im Rahmen der vom BMBF geförderten Projekte MediGRID und Services@MediGRID, bzw. innerhalb des Europäischen EDGeS Projektes, auch ein Softwarepaket entwickelt, mit dem über unterschiedliche Gridinfrastrukturen hinweg Rechenaufgaben einfach verteilt und gemanaged werden können.

Beide Systeme sollen in Zukunft allen Grid-Nutzern möglichst benutzerfreundlich zur Verfügung gestellt werden und mittelfristig integriert werden. Dafür wollen die wissenschaftlichen Anwendungsprogrammierer ein Webportal mit allen erforderlichen Funktionalitäten entwickeln.

Was haben Genanalysen und Gravitationswellen gemeinsam?
Die entscheidende Herausforderung besteht in beiden Fällen in der enormen Datenmenge die zu analysieren ist:

In der Genomforschung wird hierbei die genomweite Assoziation genetischer Veränderungen mit Krankheitsbildern und Krankheitsverläufen immer wichtiger. Hierzu ist die Analyse großer Bevölkerungsgruppen notwendig, um erfolgreich Millionen genetische Varianten und Faktoren mit Krankheitsverläufen korrelieren zu können. Hierzu gehört z.B. das internationale Heart and Aging Research in Genomic Epidemiology (CHARGE) Konsortium. Aufbauend auf der allgemeinen Gridsoftware der Arbeitsgruppe von Tobias A. Knoch wurde eigens für diesen speziellen Zweck sogar eine besonders effiziente weitere Software entwickelt. Mit normalen Ressourcen hätte die Analyse dieser Daten Jahre gedauert. Diese und andere Analysen verbrauchen im D-Grid und anderen internationalen Gridinfrastrukturen ~250.000 bis 350.000 CPU-Stunden pro Tag. Dies entspricht einem Cluster mit bis zu 14500 Knoten (einzelnen PCs).

In der Gravitationsphysik arbeitet man seit einigen Jahren an der Analyse der Daten aus den Gravitationswellen-Detektoren um ein neues Fenster in den Kosmos zu öffnen: Mit Gravitationswellenastronomie soll die dunkle Seite des Universums erforscht werden. Um die riesigen Datenmengen analysieren zu können, mussten dafür ganz pragmatisch Schritt für Schritt effiziente Methoden zum verteilten Rechnen entwickelt werden. Dazu gehört unter anderem das Projekt Einstein@Home. Einstein@Home durchsucht die Daten der Gravitationswellen-Detektoren nach Signalen von Gravitationswellen und bezieht dafür hunderttausende Nutzer weltweit ein, die einen Teil der Rechenzeit ihres PCs zur Verfügung stellen. Im D-Grid nutzt Einstein@Home täglich eine Rechenleistung von 100.000 bis 150.000 CPU-Stunden, dies entspricht einem Cluster mit 6250 Knoten (einzelnen PCs).

Genom-Organisation
Trotz vieler Bemühungen in den letzten 130 Jahren konnte die Organisation des Genoms im Zellkern bisher bei weitem nicht vollständig aufgeklärt werden. Entscheidende Fortschritte konnten zwar durch die Entzifferung der Basensequenz der DNA erzielt werden, allerdings ist dies nur ein Teil der Information die im Genom gespeichert wird. Wesentlich hierbei ist, dass die 46 einzelnen DNA Moleküle – die Chromosomen – ausgestreckt eine Länge von ca. 2 m ergeben, aber funktional in einem Zellkern von ca. 10 Mikrometer Durchmesser verpackt sind. Dies entspricht einem Kompaktierungsfaktor von ca. 100.000. Hierzu wird die DNA auf mehreren Verpackungsstufen kompaktiert: Zunächst wir die DNA um einen Proteinkomplex gewickelt wodurch das sogenannte Nucleosome entsteht, quasi eine Art Perlenkette. Die Nukleosomen lagern sich sodann zu einer sogenannten Chromatinfaser zusammen. Diese Faser bildet Schleifen, die wiederum zu größeren Gruppen zusammengelagert sind. Typischerweise bilden ca. 100 solcher Aggregate ein Chromosom. Die Chromosomen selbst sind im Zellkern in mehr oder weniger definierter Weise bestimmten Positionen zugeordnet. Auf jeder dieser Verpackungsstufen gibt es nun chemische oder strukturelle Modifikationen, die wiederum einen Code darstellen. Dieser ist zum Beispiel für das korrekte Ablesen der genetischen Information einzelner Gene verantwortlich. Es ist bekannt, dass die Kombination von Veränderungen der räumlichen Genomarchitektur dabei wesentlichen Einfluss auf die Funktion und auch auf Krankheiten ausübt. Folglich erfordert das Verstehen der genomischen Funktion deshalb die Aufklärung möglichst aller Zusammenhänge auf all diesen Ebenen. Hier ist noch erheblicher Forschungsbedarf notwendig

Biophysikalische Genomik
Die internationale Arbeitsgruppe Biophysikalische Genomik beschäftigt sich mit der Aufklärung der Organisation des Genoms im Zellkern. Sie erforscht dies von der Ebene der DNA- Sequenzorganisation bis hin zur morphologisch im Mikroskop sichtbaren Ebene des ganzen Zellkerns. Besonders im Fokus steht hierbei die Beziehung zwischen dreidimensionaler Struktur des Genoms und seiner Funktion. Die Arbeitsgruppe ist inter- und transdisziplinär ausgerichtet und kombiniert verschiedene Verfahren in einer sogenannten systembiologischen Herangehensweise, wobei theoretische mit experimentellen Verfahren kombiniert werden: z. B. werden dreidimensionale Strukturmodelle von Chromosomen und ganzen Zellkernen mit parallelen Supercomputern simuliert. Parallel dazu werden mit hochauflösenden Bild gebenden und biochemischen Verfahren experimentelle Daten über die Struktur gewonnen. Beides wird schließlich verglichen und neue Modelle und Experimente werden angestoßen. Knoch und die Arbeitsgruppe Biophysikalische Genomik konnte dabei in den letzten zwölf Jahren zahlreiche neue Erkenntnisse gewinnen, die die Forschung auf diesem Gebiet grundsätzlich und nachhaltig beeinflusst haben. Parallel konnten neue Verfahren entwickelt werden, wie z.B. grundsätzlich neue Färbemethoden des Genoms oder neue Bioinformatikwerkzeuge, wie Grid-Infrastrukturen. Die Arbeiten wurden mit Ehrungen und Preisen ausgezeichnet.

Genomweite Assoziationsstudien
Um Aussagen über die Funktion genetischer Variationen oder Mutationen speziell im Hinblick auf Krankheitsausbruch, Krankheitsbehandlung und Krankheitsverlauf machen zu können sind bevölkerungsweite Screenings notwendig. Hierbei werden genetische Varianten/Mutationen mit Gesundheitsdaten in großen Bevölkerungsgruppen miteinander verglichen. Die Zahl der bekannten Variationen geht hierbei mittlerweile in die Millionen. Deshalb benötigen entsprechende Studien zehntausende von Teilnehmern um statistisch relevante Ergebnisse erzielen zu können. Die Arbeit findet deshalb auch meist in internationalen Großkonsortien statt, da dies ähnlich wie in der Astronomie oder Elementarteilchenphysik anders nicht zu leisten wäre. Neu entdeckte Variationen/Mutationen, die mit einem Krankheitsparameter assoziiert werden können, müssen in aufwendigen Laborverfahren zunächst überprüft werden, sofern sie nicht der gesuchte fehlende Baustein waren. In vielen Fällen bieten diese dann jedoch die Aufklärung eines Zusammenhangs zwischen Funktion und Krankheit an, die für die Behandlung wichtig sind oder sogar erst die Entwicklung von Behandlungsoptionen ermöglichen. Die Entdeckung neuer Variationen/Mutationen, die für die Behandlung chronischer Lungenkrankheiten stellen wie oben erwähnt deshalb einen wesentlichen Fortschritt in der Forschung dar.

Grid Application Toolkit (GAT)
Die von der eScience-Gruppe am AEI entwickelte Software GAT kann mit allen bekannten Grid- Middleware Diensten wie z.B. Globus, UNICORE und gLite kommunizieren. Middleware-Dienste sind Programme, die die Kommunikation der Ressourcen untereinander ermöglichen. Mit GAT vereinfacht sich der Zugriff auf die Computer-Ressourcen erheblich, da nun nicht mehr jede Middleware einzeln mit speziell auf sie zugeschnittener Software angesprochen werden muss, da GAT universell anwendbar ist.

Die meisten über die Middleware Globus zugänglichen D-Grid-Ressourcen werden vom AEI bereits genutzt. Um weitere Rechenkapazitäten auch über die anderen Middleware Dienste zugänglich zu machen, wollen die AEI-Wissenschaftler in Zukunft GAT nutzen. Darüber hinaus soll das Softwarepaket über ein Webportal der gesamten wissenschaftlichen Community zur Verfügung gestellt werden.

Einstein@Home
Die Daten der in der LIGO Scientific Collaboration (LSC) zusammengeschlossenen Gravitationswellendetektoren GEO600 und LIGO werden gemeinsam mit den Daten des italienisch-französischen Detektors Virgo von Einstein@Home analysiert. Einstein@Home ist mit mehr als 200.000 Teilnehmern eines der weltweit größten Projekte zum verteilten Rechnen. Es wird von der University of Wisconsin-Milwaukee, USA und dem Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) in Potsdam und Hannover betrieben.

Gravitationswellen
Albert Einstein sagte bereits 1916 im Rahmen seiner Allgemeinen Relativitätstheorie die Existenz von Gravitationswellen voraus – allerdings war er fest davon überzeugt, dass man diese winzigen Veränderungen der Raum-Zeit niemals werde messen können. In diesem Punkt hat er sich wohl geirrt, denn eine internationale Wissenschaftlergemeinschaft hat in den vergangenen Jahrzehnten hochempfindliche Gravitationswellendetektoren entwickelt, mit denen man die winzigen Längenänderungen wird messen können, die beim Durchgang einer Gravitationswelle entstehen. Eines dieser revolutionären Projekte, der deutsch-britische Gravitationswellendetektor GEO600, steht in der Nähe von Hannover und wird von den Wissenschaftlern des AEI sowie ihren Kollegen aus Cardiff und Glasgow betrieben. Die Messungen mit GEO600 sind der Deutsche Beitrag zum internationalen Verbund “Laser Interferometer Gravitational Wave Observatory“ (LIGO), deren Daten mit den Einstein@Home Analysen ausgewertet werden. Einstein@Home im D-Grid, also der „Usecase GEO600“, hat hierbei mit Abstand den größten Beitrag geleistet.

Die direkte Messung von Gravitationswellen wird uns völlig neue Einblicke ins Universum ermöglichen, denn erstmals werden wir Bereiche „sehen“ können, die keiner anderen Beobachtungsmethode zugänglich sind. Da man mit astronomischen Methoden immer in die Vergangenheit schaut, werden wir erstmals bis in die ersten Momente des Universums zurück blicken können und besser verstehen lernen, wie es entstanden ist. Für die bisherigen Beobachtungsmethoden ist bei rund 380.000 Jahren nach dem Urknall Schluss, denn erst von diesem Zeitpunkt an wurde das Universum transparent für elektromagnetische Strahlung, z. B. Röntgen-, Gamma- oder Infrarotstrahlung. Die Gravitationswellenastronomie ist also eine perfekte Ergänzung der bisher existierenden astronomischen Beobachtungsmöglichkeiten. Daher wird diese Forschung derzeit weltweit stark gefördert.

Weitere interessante Beiträge

Zur Redakteursansicht