Linguistische Annotation von Nichtstandardvarietäten - "Guidelines und Best Practices" (F-AG 7)

Auf einen Blick

Laufzeit
09/2012  – 03/2013
Förderung durch

Bundesministerium für Forschung, Technologie und Raumfahrt

Projektbeschreibung

Aktuelle Schemata und Guidelines für linguistische Annotationen sind vorwiegend für die Beschreibung von Zeitungssprache entwickelt worden, und automatische Annotationstools werden nach wie vor weitgehend auf Zeitungssprache evaluiert. Im Kurationsprojekt geht es um die Erstellung annotierter Daten aus neuen Domänen, sogenannter "Nichtstandardvarietäten". Solche Daten enthalten eine Reihe sprachlicher Strukturen und Phänomene, die von gängigen Guidelines nicht abgedeckt werden.
Das genehmigte Kurationsprojekt wird in einer Pilotstudie gängige Annotationsschemata für drei Annotationsebenen (Dependenzanalyse, Named Entity Recognition, Koreferenz) evaluieren und gegebenenfalls erweitern. Dazu wird ein Testkorpus nichtstandardsprachlicher Varietäten erstellt und annotiert. Ziel sind Guidelines und „Best Practices" für die Annotation solcher Varietäten.

Projektwebsite öffnen