D1 Workshop Heterogenität in linguistischen Datenbanken

Datum: 9. Juli 2004, 9:30-18:00
Ort: Haus 14/0.45 in Golm (Lageplan, Anfahrt)

Vortragende


Zeitplan

9:30-10:15
Begrüßung +
Stefanie Dipper, Michael Götze, Manfred Stede (Potsdam):
ANNIS -- eine linguistische Datenbank für Informationsstruktur (abstract, slides)
10:15-11:00
Thomas Schmidt (Hamburg):
EXMARaLDA / Datenbank 'Mehrsprachigkeit' - Konzepte und praktische Erfahrungen (abstract, slides)
11:00-11:30
-- Kaffeepause --
11:30-12:15
Andreas Wagner (Tübingen):
Einheit in Vielfalt - Integration unterschiedlicher linguistischer Daten in TUSNELDA (abstract, slides)
12:15-13:00
Andreas Witt (Bielefeld):
Daten und Dokumente: Linguistische Annotationen und Markuptechnologien (abstract, slides)
13:00-14:15
-- Mittagspause --
14:15-15:00
Roland Meyer (Regensburg):
(Pseudo-)VP-Topikalisierung im Tschechischen und Polnischen. Korpusevidenz und Grammatik (abstract, slides)
15:00-15:45
George Smith (Potsdam):
Syntaktisch annotierte Korpora und die Schnittstelle zum technisch nicht versierten Benutzer - Erfahrungen aus dem Projekt TIGER (abstract)
15:45-16:15
-- Kaffeepause --
16:15-17:00
Elke Teich (Darmstadt):
Processing multiple language resources: Experiences with XML (abstract, slides)
17:00-17:45
Anke Lüdeling (Berlin):
DDD -- Ein historisches Referenzkorpus für das Deutsche (abstract, slides)
17:45-18:00
Abschluss

Top of the page


Abstracts

Stefanie Dipper, Michael Götze, Manfred Stede (Potsdam): ANNIS -- eine linguistische Datenbank für Informationsstruktur

Im Rahmen des Projekts D1 des SFB 632 "Informationsstruktur" an der Universität Potsdam entsteht die Datenbank ANNIS (= ANNotation of Information Structure) für die Speicherung und Nutzung der im SFB erstellten Daten. Die verschiedenen Teilprojekte fokussieren auf unterschiedliche Aspekte von Informationsstruktur (IS), z.B. die Interaktion von IS und Wortstellung, IS und Prosodie, IS und Quantorenskopus etc. Die Art und Tiefe der Annotation unterscheidet sich daher stark von Projekt zu Projekt.

ANNIS bietet eine schichtenbasierte Visualisierung der Daten (ähnlich wie Exmaralda), bei der einzelne Schichten aus- und eingeblendet werden können. Außerdem integriert ANNIS eine Suchfunktionalität, die Satz- und Ebenen-übergreifende Suchanfragen erlaubt. Das soll eine Untersuchung der verschiedenen Faktoren (inkl. des Kontextes), die für IS eine Rolle spielen, erleichtern.

Der Vortrag wird auch eine Demonstration der ersten Version von ANNIS beinhalten.

Top of the page

Thomas Schmidt (Hamburg): EXMARaLDA / Datenbank 'Mehrsprachigkeit' - Konzepte und praktischeErfahrungen

EXMARaLDA (Extensible Markup Language for Discourse Annotation) ist ein XML-basiertes System zur computergestützten Transkription, Annotation und Analyse gesprochener Sprache. Es wird am Sonderforschungsbereich Mehrsprachigkeit (Uni Hamburg) als zentrale Architekturkomponente einer Datenbank "Mehrsprachigkeit" entwickelt, die den SFB-Projekten als gemeinsame Plattform für die Erstellung, den Austausch und die Archivierung von Korpora mehrsprachiger gesprochener Sprache dienen soll.

Unter dem Stichwort "Konzepte" werde ich in diesem Beitrag vor allem solche Probleme thematisieren, die sich aus der Heterogenität verschiedenartiger Transkriptionssysteme und Forschungszusammenhänge ergeben, und zeigen, welche Lösungsmöglichkeiten mit EXMARaLDA in dieser Hinsicht erarbeitet wurden. Unter dem Stichwort "praktische Erfahrungen" möchte ich darüber hinaus aus der Sicht eines Software-Entwicklers einige Beobachtungen aus der Praxis der nunmehr vierjährigen Projektarbeit mitteilen.

Top of the page

Andreas Wagner (Tübingen): Einheit in Vielfalt - Integration unterschiedlicher linguistischer Daten in TUSNELDA

TUSNELDA = TUebinger Sammlung Nutzbarer Empirischer Linguistischer DAtenstrukturen) ist die Kollektion linguistischer Korpora und Datenbanken, die im SFB 441 "Linguistische Datenstrukturen" an der Universität Tübingen erstellt werden. Verschiedene Teilprojekte annotieren Korpora als empirische Grundlage für die Untersuchung jeweils unterschiedlicher Phänomene in unterschiedlichen Sprachen. Zum momentanen Zeitpunkt umfasst TUSNELDA u.a. syntaktisch annotierte Korpora in Deutsch und Tibetisch, ein POS-getaggtes russisches Korpus, sowie Dialoge in Bosnisch/Serbisch/Kroatisch und diachrone portigiesische Texte, deren Annotation auf die Untersuchung deiktischer Ausdrücke ausgerichtet ist. Weitere Korpora, z.B. bilinguale Spracherwerbsdaten (Deutsch/Russisch), werden hinzukommen.

Die Teilkorpora in TUSNELDA unterscheiden sich also hinsichtlich der erfassten Sprachen und Textsorten, der kodierten (Kombinationen von) Annotationsebenen (Layout, Text-/Dialogstruktur, morpho-syntaktische Klassifikationen, syntaktische Strukturen, Koreferenz, situativer Kontext etc.), den zugrunde liegenden linguistischen Theorien sowie den technischen Daten- und Annotationsformaten. Um angesichts dieser Diversität eine maximale Kohärenz der verschiedenen Teilkorpora zu erreichen, werden die annotierten Korpora in ein auf einem gemeinsamen Annotationsschema basierendes Format überführt, welches eine einheitliche Kodierung gleicher Annotationsebenen gewährleistet. In diesem Format werden die Daten in eine XML-Datenbank integriert. Spezielle, auf die Korpusdaten abgestimmte Abfrageschnittstellen ermöglichen einen Internet-Zugriff auf diese Datenbank.

Top of the page

Andreas Witt (Bielefeld): Daten und Dokumente: Linguistische Annotationen und Markuptechnologien

In dem Projekt "Sekimo - Sekundäre Informationsstrukturierung und vergleichende Diskursanalyse", Teil der DFG-Forschergruppe 437 "Texttechnologische Informationsmodellierung", werden linguistische Daten, insbesondere verschriftlichte japanische Dialoge, auf unterschiedlichen Ebenen annotiert. Hierzu wird XML verwendet, wobei die Überwindung der Restriktionen von XML einen der Untersuchungsgegenstände bildet.

In dem Vortrag werden mögliche Annotationsmodelle und die Vorteile des vom Projekt Sekimo gewählten Ansatzes beschrieben. Darauf basierend werden Verarbeitungsaspekte für derartige linguistische Korpora angesprochen. Im Zentrum stehen dabei Möglichkeiten, verschiedene Ebenen miteinander in Beziehung zu setzen und gegebenenfalls miteinander zu verschmelzen.

Top of the page

Roland Meyer (Regensburg): (Pseudo-)VP-Topikalisierung im Tschechischen und Polnischen. Korpusevidenz und Grammatik

Voranstellungen von infiniten VPn (z.T. inklusive ihrer Ergänzungen) in das Vorfeld des deutschen Satzes scheinen u.a. Gesetze der Konstituenz zu verletzen und sind daher ein viel diskutiertes syntaxtheoretisches Problem. Tschechisch und Polnisch sind nun einerseits beide für ihre freie Wortstellung bekannt und unterscheiden sich anderseits gerade im präverbalen Bereich der Satzstruktur, so dass es naheliegt, die Grammatik der VP-Voranstellungen in diesen beiden Sprachen unter die Lupe zu nehmen. Wie teilweise auch im Deutschen, empfehlen sich Korpusbelege, da die relevanten Daten intuitiv oft schwer zu bewerten sind.

Für Untersuchungen zum Tschechischen steht seit Längerem ein ca. 100 Mio. Tokens umfassendes, POS-getaggtes Nationalkorpus, sowie eine (nach der Theorie der Prager funktionalen Dependenz-Syntax) syntaktisch und informationsstrukturell annotierte Baumbank zur Verfügung. Damit nimmt das Tschechische eine Vorreiterrolle unter den slavischen Korpora ein. In allerjüngster Zeit wurde nun auch ein ca. 70 Mio. Tokens großes, POS-getaggtes polnisches Nationalkorpus fertiggestellt.

Ziel des Vortrags ist es erstens, die Ergebnisse der Arbeit mit den genannten Korpora zu präsentieren und dabei besonders auf Probleme bei der korpusbezogenen Syntaxforschung einzugehen. Zweitens soll ein Überblick über die verschiedenen zugänglichen slavischen Korpora und ihre Annotationsgrade gegeben werden. Drittens werden -- besonders hinsichtlich der Erforschung syntaktischer und informationsstruktureller Phänomene -- die Desiderata aus Nutzerperspektive zusammengefasst.

Top of the page

George Smith (Potsdam): Syntaktisch annotierte Korpora und die Schnittstelle zum technisch nicht versierten Benutzer - Erfahrungen aus dem Projekt TIGER

Das TIGER-Korpus ist ein syntaktisch annotiertes Korpus deutscher Zeitungstexte, das in einem gemeinsamen DFG-Projekt der Universitäten Saarbrücken, Stuttgart und Potsdam entstanden ist. Die gegenwärtig verfügbare Version des Korpus besteht aus ca. 40.000 Sätze aus der Frankfurter Rundschau des Jahres 1995. Das Korpus ist sowohl im zeilenorientierten Negra-Format als auch im XML-Format erhältlich.

Während computerlinguistisch orientierte Benutzer vielseitige Möglichkeiten haben, in XML kodierte Korpora zu nutzen, sind die meisten Benutzer aus der allgemeinen Linguistik oder den Philologien darauf angewiesen, dass spezielle Software einen Zugang zum Korpus ermöglicht. Dafür wurde am IMS in Stuttgart die Suchmaschine TIGERSearch entwickelt, deren Anfragesprache auf die Bedürfnisse von Linguisten zugeschnitten ist.

Im Vortrag geht es konkret um Massnahmen, um die Arbeit mit der Suchmaschine für technisch nicht versierte Benutzer aus der Linguistik oder den Philologien zu erleichtern. Die Verbreitung eines Korpus in diesen Kreisen steht im direkten Zusammenhang mit der Benutzerfreundlichkeit der Suchwerkzeuge. Die Mehrheit dieser Benutzer verfügen über keine Erfahrungen mit Anfrage- oder Programmiersprachen. Die Arbeit am Rechner beschränkt sich in dieser Benutzergruppe meist auf die Verwendung von Textverarbeitungsystemen, Email-Clients, und Web-Browser.

Dem Modell des Browsers folgend werden vorgefertigte Anfragen in Bookmarks gespeichert. Ein Bibliothek hierarchisch geordneter Bookmarks ermöglichen es, diese Anfragen sowohl in einer didaktisch sinnvollen Reihenfolge zu präsentieren als auch phänomenbasiert zu ordnen. Ein terminologischer Zugang zu den Daten wird ermöglicht; die Lernkurve wird positiv beeinflusst. Zusätzlich werden komplexe aber vielfach nützliche Anfragen als Templates vordefiniert. Ferner wird gezeigt, wie XSLT-Stylesheets verwendet werden können, um Ergebnisse zu filtern, sodass der Benutzer auf komfortablem Weg Datenmengen zusammenstellen kann, die sonst eine aufwendige Nachbereitung der Daten erfordern würden.

Top of the page

Elke Teich (Darmstadt): Processing multiple language resources: Experiences with XML

I present a system for the linguistic exploration of lexical cohesion that uses two existing natural language resources, the SEMCOR (Landes et al. 1998) part of the Brown Corpus (Kucera and Francis 1967) and the Princeton WordNet (Fellbaum 1998). In a first step, the system computes potential lexical chains for the texts in the corpus; in a second step the results are presented in a browser for inspection (cf. Teich and Fankhauser 2003, Fankhauser and Teich 2004). Further linguistic analysis can then be performed externally (e.g., export to statistics packages).

Both the resources contained in the system as well as the processes performed are represented in XML and XSLT/XPath. I report on the experiences with XML-processing in this application, discussing both advantages and shortcomings.

This work has been carried out jointly with Peter Fankhauser from Fraunhofer IPSI, Darmstadt.

References
Fankhauser P. and E. Teich, 2004. Multiple perspectives on text using multiple resources: Experiences with XML processing, Proceedings of the LREC Workshop on XML-based richly annotated corpora, 4th International Conference on Language Resources and Evaluation (LREC), May 2004, Lisboa, Portugal.
Fellbaum C. (ed.), 1998. WordNet: An Electronic Lexical Database. MIT Press.
Kucera H. and W. N. Francis, 1967. Computational Analysis of Present-Day American English, Brown University Press, Providence, RI.
Landes S., C. Leacock and R. I. Tengi, 1998. Building semantic concordances. In C. Fellbaum (ed.), WordNet: An electronic lexical database, MIT Press, Cambridge MA, pp. 199-216.
Teich E. and P. Fankhauser, 2003. WordNet for lexical cohesion analysis, Proceedings of the 2nd Global WordNet Conference, January 2004, Masaryk University, Brno, Czech Republic.

Top of the page

Anke Lüdeling (Berlin): DDD -- Ein historisches Referenzkorpus für das Deutsche

Gemeinsame Arbeit mit Stefanie Dipper, Lukas Faulstich, Ulf Leser & Thorwald Poschenrieder

In diesem Vortrag wird die inhaltliche und technische Konzeption eines diachronen Korpus des Deutschen beschrieben, das Texte vom Althochdeutschen (ca. 800) bis zum ülteren Neuhochdeutsch (ca. 1900) umfasst. Das Korpus entsteht in dem Projekt DeutschDiachronDigital (DDD). Das Projekt befindet sich noch in der Antragsphase, die Konzeption wurde in einem Vorprojekt entwickelt) und soll für Forschungsfragen der Linguistik, der Philologie, der Lexikographie und der Geschichtswissenschaften nutzbar sein. Die Daten der einzelnen Sprachstufen des Deutschen unterscheiden sich stark voneinander, zusätzlich gibt es eine große Variation innerhalb der Sprachstufen. Daraus ergibt sich, dass man eine flexible Architektur und gleichzeitig eine starke inhaltliche Standardisierung braucht.

Flexibilität Es muss möglich sein, dass verschiedene Texte unterschiedlich tief annotiert sind und jederzeit weitere Annotationsebenen hinzugefügt werden können. Dies wird durch eine Stand-Off Architektur gewährleistet, deren kleinste Adressierungseinheit das Zeichen ist. Das Korpus ist in einer relationalen Datenbank gespeichert, Import und Export erfolgt durch XML-Dateien in einer Client-Server-Architektur (für Details siehe Dipper at al. 2004).
Standardisierung Zusätzlich zu einer einheitlichen Headerstruktur und definierten Qualitäts- und Diplomatizitätsstandards braucht das Korpus gemeinsame Tagsets und Richtlinien für alle Annotationsebenen, die von mehr als einer Sprachstufe genutzt werden.

Stefanie Dipper, Lukas Faulstich, Ulf Leser, and Anke Lüdeling (2004) Challenges in Modelling a Richly Annotated Diachronic corpus of German. In Proceedings of the LREC-2004 Workshop on XML-based Richly Annotated Corpora, Lissabon

Top of the page