HU-Informatiker entwickeln effektive Suchmaschine für Zitate
Sie suchen aktuelle Zitate von bestimmten Personen oder zu einzelnen Themen aus den Medien? Sie wollen die Quelle eines Zitates verifizieren? Sie wollen wissen, in welchem Kontext ein Zitat geäußert wurde? Am Institut für Informatik der Humboldt-Universität zu Berlin (HU) hat Prof. Dr. Alan Akbik mit seinem Team eine Zitatsuchmaschine entwickelt.
Vollautomatisierter Prozess schafft riesige Datenbank
Diese Zitatsuchmaschine geht über das hinaus, was herkömmliche Suchmaschinen zu bieten haben. Denn die Webcrawler durchforsten fortlaufend den Website-Content von deutschsprachigen journalistischen Medien und extrahieren Zitate, die dann quasi in Echtzeit verschlagwortet nach Themen und Personen auf der Website zu finden sind. Durch den vollautomatisierten Prozess auf Basis von KI-Modellen, die das Team um Akbik in den letzten vier Jahren entwickelt haben, ist eine riesige Datenbank entstanden: Zwei Millionen Zitate von 240 Tausend Sprecher*innen aus rund 50 verschiedenen journalistischen Quellen. Jeden Tag kommen mehr als 10.000 weitere Zitate hinzu.
Für Alan Akbik, der den Lehrstuhl für Maschinelles Lernen innehat, ist die Zitatsuchmaschine ein Nebenprodukt seiner Forschung. Er und sein Team beschäftigten sich mit Sprachmodellen und der Frage, wie Computer lernen, menschliche Sprache zu verarbeiten (Natural Language Processing, NLP). Dafür wollen die Informatiker*innen möglichst daten- und ressourceneffiziente Methoden entwickeln.
„Für uns ist eine wichtige Frage, wie wir als Universität mit unseren eigenen Sprachmodellen mit Unternehmen wie OpenAI mithalten können“, sagt Alan Akbik. „Deswegen arbeiten wir an NLP-Modellen, die mit möglichst wenig Daten trainiert werden können und weniger Ressourcen brauchen. Die Zitatsuchmaschine ist für uns ein Anwendungsfall dieser Forschung.“
Darüber hinaus wollen Alan Akbik und sein Team mit ihrer Zitatsuchmaschine, die fortlaufend verbessert und ausgebaut werden soll, ein Recherchetool für Journalist*innen und andere Nutzer*innen zur Verfügung stellen.
Weitere Informationen
Zitatsuchmaschine – entwickelt an der Humboldt-Universität zu Berlin
Kontakt
Prof. Dr. Alan Akbik
Lehrstuhl für Maschinelles Lernen an der Humboldt-Universität zu Berlin