Annotation kausaler Konnektoren

Internes Projekt der AG Angewandte Computerlinguistik, angelagert an DFG-Projekt "Kausalitätsmarker"

Projektleitung: Prof. Dr. Manfred Stede
studentische Hilfskräfte: Florian Hofmann, Andre Herzog, Andreas Peldszus

Kausale Verknüpfungen sind in Texten in verschiedenen pragmatischen Verwendungsweisen anzutreffen. Eine automatischen Erkennung dieser Verknüpfungen und ihrer verschiedenen Verwendungen kann von dem Aufbau eines umfassenden und einheitlich annotierten Korpus profitieren, um anhand dieser Daten die Regelhaftigkeit der Konstruktionen zu untersuchen und Heuristiken für die Erkennung abzuleiten. Um sich diesem Ziel einen Schritt zu nähern, ist ein Korpus von argumentativen Texten zusammengestellt worden, an dem die Annotation von kausalen Konnektoren in zwei Experimenten erprobt wurde. Die Ergebnisse dieser Untersuchungen, die daraufhin verfeinerten Annotationsrichtlinien, das vollständig annotierte Korpus und die dazu verwendeten Werkzeuge sollen hier zu Verfügung gestellt werden.

Das Korpus besteht aus rund 250 Bewertungen von Hotelanlagen, die von den Benutzern des deutschen Meinungsportals dooyoo.de verfasst wurden. Naturgemäß gilt für diese Textsorte, dass die deutsche Grammatik nicht durchgehend beherzigt wird, und dass stilistisch mit einer gewissen Variationsbreite zu rechnen ist.

Die Annotationsrichtlinien wurden anhand der Ergebnisse der Experimente angepasst und verbessert und dienten als Grundlage für die vollständige Annotation des Korpus. Sie beschreiben die Identifikation von minimalen, begründungsrelevanten Textsegmenten und deren Klassifikation nach ihrem illokutiven Beitrag.

Im Laufe der Arbeit wurden einige kleinere Hilfwerkzeuge entwickelt, vor allem zur besseren Darstellung des Korpus und der Annotation. Diese werden hier ebenfalls zur Verfügung gestellt.


Veröffentlichungen
Das Korpus

Momentan können wir das Korpus nur auf direkte Anfrage hin weitergeben, die Nutzungsrechte für die Primärdaten werden noch geklärt. Bitte kontaktieren Sie Prof. Stede (email siehe oben).

Werkzeuge