SFB 1404/1: FONDA – Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten
Auf einen Blick
Werkstofftechnik
Materialwissenschaft
Systemtechnik
Medizin
Informatik
DFG Sonderforschungsbereich
![]()
Projektbeschreibung
Entdeckungen in den Naturwissenschaften basieren zunehmend auf der computergestützten Analyse großer Datensätze, die von komplexen Datenanalyseworkflows (DAWs) auf einer verteilten Infrastruktur durchgeführt werden. Die meisten Forschungsarbeiten zu DAWs konzentrieren sich die Minimierung der Laufzeit auf einer bestimmten Infrastruktur, was zu Lösungen führt, die nur schwer zu warten und zu erstellen sind. In vielen Forschungsprojekten ist der entscheidende Faktor aber nicht die Laufzeit einer Analyse, sondern deren Entwicklungszeit. Der SFB FONDA erforscht daher neue Architekturen, Sprachen und Algorithmen, um die menschliche Produktivität bei der Entwicklung, Wartung oder Wiederverwendung von DAWs zu erhöhen. In der ersten Förderperiode fokussierte sich FONDA dabei auf drei spezifische Eigenschaften von DAWs, die in direktem Zusammenhang mit Produktivität stehen: Portabilität, Anpassbarkeit und Zuverlässigkeit. FONDA hat viel beachtete Ergebnisse in diesen Bereichen erzielt, wie z.B. verbesserte Portabilität durch flexible Schnittstellen zwischen Infrastrukturkomponenten, verbesserte Anpassbarkeit durch intelligentes Scheduling und verbesserte Zuverlässigkeit durch „Contract-Driven“ DAW-Entwicklung. In der zweiten Phase wird FONDA drei Einschränkungen aus Phase I aufheben und sich die daraus ergebenden Fragestellungen in jeweils einem Forschungsschwerpunkt erforschen. Erstens lösen wir uns von der Annahme, dass DAWs in einem einzigen Rechenzentrum ausgeführt werden, in dem alle notwendigen Daten vorliegen. Wir untersuchen stattdessen verteilte DAWs, deren Teilworkflows in verschiedenen Rechenzentren laufen und dort lokal vorhandene Daten einbeziehen. Zweitens erweitern wir unsere Ausrichtung in Hinblick auf den Lebenszyklus von DAWs mit einer neuen Research Area, in der Verbesserungen der Benutzerfreundlichkeit von DAW-Systemen erforscht werden. Drittens betrachten wir nicht mehr nur einzelne Workflows, sondern auch deren Evolution und Komposition, um die technische Nachhaltigkeit zu verbessern. Da die menschliche Produktivität in der Datenanalyse auch zunehmend durch hohe Energiekosten bedroht wird, werden wir auch Techniken zur Verbesserung der ökologischen Nachhaltigkeit erforschen. Neben den wissenschaftlichen Erfolgen konnte die erste Phase von FONDA auch bereits mehrere langfristige Entwicklungen anstoßen. Mit der Einrichtung des neuen HPC@HU Services hatte unser SFB einen nachhaltigen strukturellen Einfluss auf die Sprecheruniversität. Die Anerkennung der Bedeutung unseres Forschungsthemas spiegelt sich in zahlreichen Neuberufungen in der Region wider, die eine passgenaue Erweiterung unserer PI-Gruppe ermöglichen. Wir sind stolz auf den außergewöhnlich hohen Anteil an Frauen unter unseren Promovierenden (38%) und freuen uns auf das geplante Buch zu "Workflows for Large-Scale Scientific Data Analysis", für das mehr als 100 Autorinnen und Autoren aus 15 Ländern Beiträge zugesagt haben und das im Sommer 2024 als Open Access erscheinen wird.
Themen
Projektsprecher*innen
Beteiligte Einrichtungen
Institut für Informatik
Anschrift
Johann von Neumann-Haus, Institutsgebäude, Rudower Chaussee 25, 12489 BerlinAllgemeiner KontaktTel.: 030 2093-41140
Kooperationspartner*innen
- KooperationspartnerDeutschland
Bundesanstalt für Materialforschung und -prüfung
- KooperationspartnerUniversitätDeutschland
Charité – Universitätsmedizin Berlin
- KooperationspartnerUniversitätDeutschland
Freie Universität Berlin
- KooperationspartnerForschungsinstitutDeutschland
Hasso-Plattner-Institut für Digital Engineering
- KooperationspartnerAußeruniversitäre ForschungseinrichtungDeutschland
Helmholtz-Zentrum Potsdam – Deutsches GeoForschungsZentrum
- KooperationspartnerAußeruniversitäre ForschungseinrichtungDeutschland
Max-Delbrück-Centrum für Molekulare Medizin
- KooperationspartnerUniversitätDeutschland
Technische Universität Berlin
- KooperationspartnerUniversitätDeutschland
Technische Universität Darmstadt
- KooperationspartnerUniversitätDeutschland
Universität Potsdam
- KooperationspartnerForschungsinstitutDeutschland
Zuse-Institut Berlin
Teilprojekte
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Adaption von Datenanalyseworkflows der Genomforschung auf unterschiedliche Datenzugriffsmuster (TP A02)
Projektleitung: Prof. Dr. Ulf Leser
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Adaptive, verteilte und skalierbare Analyse massiver Satellitendaten (TP B05)
Projektleitung: Prof. Dr. Ulf Leser, Prof. Dr. Patrick Hostert
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Datenanalyseworkflows für die interaktive Exploration naturwissenschaftlicher Daten (TP A06)
Projektleitung: Prof. Dr. Matthias Weidlich
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Debugging verteilter Datenanalyseworkflows (TP B03)
Projektleitung: Prof. Dr. Timo Kehrer
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Grundlagen der Validierung von Datenanalyseworkflows (TP A01)
Projektleitung: Prof. Dr. Matthias Weidlich, Prof. Dr. Nicole Schweikardt
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: MGK: Integriertes Graduiertenkolleg (TP S02)
Projektleitung: Prof. Dr. Lars Grunske
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Portierbare und adaptive Datenanalyseworkflows für echtzeitfähiges 3D Mikroskopie (TP B02)
Projektleitung: Prof. Dr.-Ing. Peter Eisert, Prof. Christoph T. Koch, PhD
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Scheduling und adaptive Ausführung von Datenanalyseworkflows auf heterogenen Infrastrukturen (TP B01)
Projektleitung: Prof. Dr. Henning Meyerhenke
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Software-Defined Networks zur Adaption von Datenanalyseworkflows (TP B04)
Projektleitung: Prof. Dr. Björn Scheuermann, Prof. Dr. Alexander Reinefeld
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Testsysteme und Repositorien (S01)
Projektleitung: Prof. Dr. Ulf Leser, Malte Dreyer
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Verteilte Laufzeitüberwachung und Fehlerbehebung von Datenanalyseworkflows (TP B06)
Projektleitung: Prof. Dr. Lars Grunske
- ProjektDFG Sonderforschungsbereich07/2020 - 06/2024
SFB 1404/1: Zuverlässigkeit und Genauigkeit in Multi-Choice Datenanalyseworkflows (TP A03)
Projektleitung: Prof. Dr. Dr. h.c. Claudia Draxl, Prof. Dr. Lars Grunske