Datenermittlung bei zeitlichen Abweichungen

Auf einen Blick

Laufzeit
01/2026  – 12/2027
DFG-Fachsystematik

Informatik

Förderung durch

DAAD

Projektbeschreibung

In den letzten zehn Jahren hat die Verbreitung von öffentlichen und unternehmensinternen Data Lakes intensive Forschungen im Bereich der Datenerkennung vorangetrieben, mit dem Ziel, die relevantesten Daten aus umfangreichen und komplexen Korpora zu identifizieren, um vielfältige Benutzeraufgaben zu unterstützen. Das Problem, aus einem großen See von Tabellen mit Hunderten von Millionen von Datensätzen eine Handvoll relevanter Daten für die jeweilige Aufgabe zu finden, gleicht der Suche nach einer Nadel im Heuhaufen.

Durch die Entwicklung innovativer Indexstrukturen, Ähnlichkeitsmaße und Abfrageinfrastrukturen wurden bedeutende Fortschritte erzielt. Darüber hinaus sind integrierte Systeme wie Delta Lake und Blend entstanden, um End-to-End-Workflows zur Datenermittlung zu optimieren. Trotz dieser Fortschritte wird ein entscheidender Aspekt weiterhin übersehen: die zeitliche Gültigkeit der ermittelten Daten. Die Relevanz ist zeitabhängig. Data Lakes enthalten häufig mehrere Versionen von Datensätzen, die im Laufe der Zeit angesammelt wurden, wobei frühere Versionen für die aktuelle Analyse möglicherweise nicht mehr gültig sind. Um die Reproduzierbarkeit einer nachgelagerten Analyse zu gewährleisten, benötigt man hingegen möglicherweise eine ganz bestimmte Version der Daten in einem begrenzten Zeitfenster.

Bestehende Discovery-Methoden ignorieren diese zeitliche Dimension weitgehend, insbesondere wenn explizite Datums- oder Zeitmetadaten fehlen. Diese Forschungslücke macht Praktiker anfällig dafür, sich auf zeitlich und semantisch driftende Daten zu verlassen. Diese Kluft zwischen den aktuellen zeitunabhängigen Daten-Discovery-Lösungen und den realen, zeitlich reichhaltigen Data Lakes führt zu einer ineffektiven nachgelagerten Analyse der Daten. Dazu gehören unzuverlässiges Training von Machine-Learning-Modellen, falsche statistische Modelle des Universums und Entscheidungen, die auf semantisch veralteten Informationen basieren.

Um diese Lücke zu schließen, schlagen wir vor, einen formalen Rahmen für zeitlich valide Datenerkennungssysteme zu entwickeln, um die folgende Forschungsfrage zu beantworten: Wie können Datenerkennungssysteme angesichts einer bestimmten nachgelagerten Aufgabe – wie beispielsweise der Reproduzierbarkeit, die präzise historische Datenversionen erfordert, oder dem Training von Modellen für maschinelles Lernen, das die neuesten validen Daten benötigt – die zeitliche Validität von Datensätzen effektiv berücksichtigen, um sicherzustellen, dass die abgerufenen Daten sowohl semantisch relevant als auch zeitlich angemessen sind, insbesondere wenn explizite zeitliche Metadaten fehlen?

Ziele für nachhaltige Entwicklung (Vereinte Nationen)

Industrie, Innovation und Infrastruktur

Projektleitung

  • Person

    Mahdi Esmailoghli

    • Institut für Informatik
    • Datenbanken und Informationssysteme

Beteiligte Einrichtungen