FOR 2841/2: Jenseits des Exoms - Auffindung, Analyse und Vorhersage des Krankheitspotenzials nichtkodierender DNA Varianten (TP 05)

Auf einen Blick

Laufzeit
07/2023  – 07/2026
DFG-Fachsystematik

Medizininformatik und medizinische Bioinformatik

Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Informatik

Förderung durch

DFG Forschungsgruppe DFG Forschungsgruppe

Projektbeschreibung

Die Erforschung regulatorischer DNA-Elemente, Merkmale und Prozesse in menschlichen Zellen hat in der biomedizinischen Forschung eine lange Tradition. Eine umfassende und qualitativ hochwertige Darstellung des aktuellen Wissensstands zur menschlichen Genregulation ist eine Voraussetzung für die Konzeption künftiger Experimente und von grundlegender Bedeutung für die biomedizinische Forschung, die in den verschiedenen Projekten der Forschungseinheit durchgeführt wird.
Das Ziel dieses Teilprojekts ist die Entwicklung einer umfassenden Datenbank mit regulatorischen Genommerkmalen und deren Variationen bei menschlichen Krankheiten. Unser Projekt gliedert sich in einen Teil zur Datenintegration (DI) und einen Teil zur Informationsextraktion (IE). Im Hinblick auf DI haben wir in den ersten 24 Monaten der ersten Phase geeignete Datenquellen identifiziert, Datenumwandlungspipelines implementiert, RegulationSpotter (Schwarz et al., 2019) als das am besten geeignete Ziel für die Integration dieser Informationen ausgewählt und einen Prototyp der Integrationspipeline und der Ergebnisvisualisierung implementiert. Im Hinblick auf die IE haben wir den ersten annotierten Textkorpus mit regulatorischen Informationen entwickelt, der aus 305 Abstracts besteht, in denen 156 Transkriptionsfaktoren und 494 Enhancer-Regionen im Zusammenhang mit 350 einzigartigen Krankheiten und 985 einzigartigen Genen erwähnt werden (Garda et al., 2022). Dieser Korpus wurde verwendet, um Text-Mining-Algorithmen zu trainieren, um regulatorische Sequenzelemente in neuen Texten zu erkennen, und dann auf die gesamte PubMed-Sammlung angewendet, wodurch die ersten großen und systematisch gewonnenen Sammlungen dieser Elemente und ihrer mutmaßlichen Assoziationen mit Genen und Krankheiten entstanden. Darüber hinaus haben wir eine Pipeline auf Basis tiefer neuronaler Netze entwickelt, um eine neuronale Entitätsnormalisierung durchzuführen und damit die nachgelagerte Aufgabe der Kuratierung extrahierter Informationen in Zukunft zu erleichtern. Die Verbesserung und Bewertung dieser Pipeline sowie die Erweiterung des Korpus sind derzeit in Arbeit.
In der zweiten Phase planen wir, unsere erfolgreiche Arbeit im Bereich DI und IE fortzusetzen. Im Bereich DI werden wir uns auf die Aktualisierung und Erweiterung der integrierten Datenbanken sowie auf die Automatisierung des Integrationsprozesses konzentrieren. Im Bereich IE planen wir, unseren Schwerpunkt von der Entitätserkennung und -normalisierung auf die Beziehungsextraktion zu verlagern, einem Bereich, in dem in den letzten Jahren erhebliche Fortschritte erzielt wurden. Dieser Schritt erfordert eine erneute Annotation des Korpus hinsichtlich definierter Arten von Beziehungen zwischen regulatorischen Merkmalen und Genen, Varianten und Krankheiten.

Projektwebsite öffnen

Beteiligte Einrichtungen

  • Wissensmanagement in der Bioinformatik

    Anschrift
    Johann von Neumann-Haus, Institutsgebäude, Rudower Chaussee 25, 12489 Berlin
    Allgemeiner Kontakt