Humboldt-Universität zu Berlin

Mission Statement

Arbeitsgruppe Wissensmanagement

Arbeitsgebiet

Wir entwickeln und untersuchen Verfahren, die Wissen in großen Datenbanken - oder großen Textsammlungen - entdecken und nutzbar machen. Dazu gehören statistische, maschinelle Lernverfahren, Sampling- und aktive Lernalgorithmen, Assoziationsregel- und Subgruppenverfahren. Wir untersuchen Anwendungen vor allem im Dokumentenmanagement und in der Bioinformatik.

Aktuelles

Forschungsschwerpunkte

Wissensentdeckung und maschinelles Lernen Wir untersuchen Verfahren des statistischen, maschinellen Lernens, die Daten analysieren und die in ihnen enthaltenen Muster und Zusammenhänge aufdecken. Zu den Herausforderungen des maschinellen Lernens gehört die Analyse sehr großer Datenbanken. Sampling-Verfahren können Datenbanken verarbeiten, die so groß sind, dass es unmöglich wäre, über alle Einträge zu iterieren und liefern dennoch Optimalitätsgarantien. Eine Herausforderung beim Klassifizierungslernen liegt in der effektiven Ausnutzung unklassifizierter Beispieldaten. Wir untersuchen Verfahren, die Klassifikatoren aus wenigen klassifizierten und vielen unklassifizierten Beispielen lernen können. Bei vielen Wissensentdeckungsproblemen liegen Hintergrundinformationen in Form von Texten vor - etwa im Web. Wir entwickeln Verfahren, die diese für eine automatische Verarbeitung schwer zugänglichen Informationen ausnutzen.
Text Mining
Das Volumen an Dokumenten, die in Archiven und im Web verfügbar sind, unterliegt einem explosionsartigen Wachstum. Daraus erwächst ein Bedarf an Verfahren, die große Textmengen automatisch analysieren, klassifizieren und filtern können, und die das in ihnen enthaltene Wissen extrahieren, darstellen und es nutzbar machen können. Wir entwickeln Text-Mining-Verfahren, die Wissen in Dokumentensammlungen entdecken und nutzen; beispielsweise um Dokumentenverarbeitungsprozesse zu unterstützen. Eine besondere Herausforderung für Text-Mining-Ansätze liegt in der Bioinformatik: um biologische Modelle zu gewinnen, die etwa die Funktion bestimmter Gene vorhersagen, müssen Informationen berücksichtigt werden, die über zahllose wissenschaftliche Veröffentlichungen verteilt sind. Wir untersuchen Verfahren, die relevante Informationen automatisch aus Artikeln extrahieren und bei der Bildung von Modellen berücksichtigen.
Email-Management
Dokumentenmanagement (spezieller: Email-Management) ist eines der interessantesten Anwendungsgebiete des maschinellen Lernens. Viele Unternehmen - aber auch Personen - investieren viel Zeit in das Beantworten von Emails und verwenden dabei häufig wiederkehrende Formulierungen, Sätze oder Emails. Wir untersuchen, wie sich das Verfassen von Dokumenten in bestimmten, thematisch eingeschränkten Gebieten durch Software unterstützen lässt. Wir entwickeln ein prototypisches System, das aus in der Vergangenheit erhaltenen und verfassten Emails lernt.

Unterstützung

Die Nachwuchsgruppe Wissensmanagement wird von der Deutschen Forschungsgemeinschaft im Rahmen  des Aktionsplanes Informatik gefördert.