| 9:30-10:15 |
Begrüßung + Stefanie Dipper, Michael Götze, Manfred Stede (Potsdam): ANNIS -- eine linguistische Datenbank für Informationsstruktur (abstract, slides) |
| 10:15-11:00 |
Thomas Schmidt (Hamburg): EXMARaLDA / Datenbank 'Mehrsprachigkeit' - Konzepte und praktische Erfahrungen (abstract, slides) |
| 11:00-11:30 |
-- Kaffeepause -- |
| 11:30-12:15 |
Andreas Wagner
(Tübingen): Einheit in Vielfalt - Integration unterschiedlicher linguistischer Daten in TUSNELDA (abstract, slides) |
| 12:15-13:00 |
Andreas Witt (Bielefeld): Daten und Dokumente: Linguistische Annotationen und Markuptechnologien (abstract, slides) |
| 13:00-14:15 |
-- Mittagspause -- |
| 14:15-15:00 |
Roland Meyer (Regensburg): (Pseudo-)VP-Topikalisierung im Tschechischen und Polnischen. Korpusevidenz und Grammatik (abstract, slides) |
| 15:00-15:45 |
George Smith (Potsdam): Syntaktisch annotierte Korpora und die Schnittstelle zum technisch nicht versierten Benutzer - Erfahrungen aus dem Projekt TIGER (abstract) |
| 15:45-16:15 |
-- Kaffeepause -- |
| 16:15-17:00 |
Elke Teich (Darmstadt): Processing multiple language resources: Experiences with XML (abstract, slides) |
| 17:00-17:45 |
Anke Lüdeling
(Berlin): DDD -- Ein historisches Referenzkorpus für das Deutsche (abstract, slides) |
| 17:45-18:00 |
Abschluss |
ANNIS bietet eine schichtenbasierte Visualisierung der Daten (ähnlich wie Exmaralda), bei der einzelne Schichten aus- und eingeblendet werden können. Außerdem integriert ANNIS eine Suchfunktionalität, die Satz- und Ebenen-übergreifende Suchanfragen erlaubt. Das soll eine Untersuchung der verschiedenen Faktoren (inkl. des Kontextes), die für IS eine Rolle spielen, erleichtern.
Der Vortrag wird auch eine Demonstration der ersten Version von ANNIS beinhalten.
Unter dem Stichwort "Konzepte" werde ich in diesem Beitrag vor allem solche Probleme thematisieren, die sich aus der Heterogenität verschiedenartiger Transkriptionssysteme und Forschungszusammenhänge ergeben, und zeigen, welche Lösungsmöglichkeiten mit EXMARaLDA in dieser Hinsicht erarbeitet wurden. Unter dem Stichwort "praktische Erfahrungen" möchte ich darüber hinaus aus der Sicht eines Software-Entwicklers einige Beobachtungen aus der Praxis der nunmehr vierjährigen Projektarbeit mitteilen.
Die Teilkorpora in TUSNELDA unterscheiden sich also hinsichtlich der erfassten Sprachen und Textsorten, der kodierten (Kombinationen von) Annotationsebenen (Layout, Text-/Dialogstruktur, morpho-syntaktische Klassifikationen, syntaktische Strukturen, Koreferenz, situativer Kontext etc.), den zugrunde liegenden linguistischen Theorien sowie den technischen Daten- und Annotationsformaten. Um angesichts dieser Diversität eine maximale Kohärenz der verschiedenen Teilkorpora zu erreichen, werden die annotierten Korpora in ein auf einem gemeinsamen Annotationsschema basierendes Format überführt, welches eine einheitliche Kodierung gleicher Annotationsebenen gewährleistet. In diesem Format werden die Daten in eine XML-Datenbank integriert. Spezielle, auf die Korpusdaten abgestimmte Abfrageschnittstellen ermöglichen einen Internet-Zugriff auf diese Datenbank.
In dem Vortrag werden mögliche Annotationsmodelle und die Vorteile des vom Projekt Sekimo gewählten Ansatzes beschrieben. Darauf basierend werden Verarbeitungsaspekte für derartige linguistische Korpora angesprochen. Im Zentrum stehen dabei Möglichkeiten, verschiedene Ebenen miteinander in Beziehung zu setzen und gegebenenfalls miteinander zu verschmelzen.
Für Untersuchungen zum Tschechischen steht seit Längerem ein ca. 100 Mio. Tokens umfassendes, POS-getaggtes Nationalkorpus, sowie eine (nach der Theorie der Prager funktionalen Dependenz-Syntax) syntaktisch und informationsstrukturell annotierte Baumbank zur Verfügung. Damit nimmt das Tschechische eine Vorreiterrolle unter den slavischen Korpora ein. In allerjüngster Zeit wurde nun auch ein ca. 70 Mio. Tokens großes, POS-getaggtes polnisches Nationalkorpus fertiggestellt.
Ziel des Vortrags ist es erstens, die Ergebnisse der Arbeit mit den genannten Korpora zu präsentieren und dabei besonders auf Probleme bei der korpusbezogenen Syntaxforschung einzugehen. Zweitens soll ein Überblick über die verschiedenen zugänglichen slavischen Korpora und ihre Annotationsgrade gegeben werden. Drittens werden -- besonders hinsichtlich der Erforschung syntaktischer und informationsstruktureller Phänomene -- die Desiderata aus Nutzerperspektive zusammengefasst.
Während computerlinguistisch orientierte Benutzer vielseitige Möglichkeiten haben, in XML kodierte Korpora zu nutzen, sind die meisten Benutzer aus der allgemeinen Linguistik oder den Philologien darauf angewiesen, dass spezielle Software einen Zugang zum Korpus ermöglicht. Dafür wurde am IMS in Stuttgart die Suchmaschine TIGERSearch entwickelt, deren Anfragesprache auf die Bedürfnisse von Linguisten zugeschnitten ist.
Im Vortrag geht es konkret um Massnahmen, um die Arbeit mit der Suchmaschine für technisch nicht versierte Benutzer aus der Linguistik oder den Philologien zu erleichtern. Die Verbreitung eines Korpus in diesen Kreisen steht im direkten Zusammenhang mit der Benutzerfreundlichkeit der Suchwerkzeuge. Die Mehrheit dieser Benutzer verfügen über keine Erfahrungen mit Anfrage- oder Programmiersprachen. Die Arbeit am Rechner beschränkt sich in dieser Benutzergruppe meist auf die Verwendung von Textverarbeitungsystemen, Email-Clients, und Web-Browser.
Dem Modell des Browsers folgend werden vorgefertigte Anfragen in Bookmarks gespeichert. Ein Bibliothek hierarchisch geordneter Bookmarks ermöglichen es, diese Anfragen sowohl in einer didaktisch sinnvollen Reihenfolge zu präsentieren als auch phänomenbasiert zu ordnen. Ein terminologischer Zugang zu den Daten wird ermöglicht; die Lernkurve wird positiv beeinflusst. Zusätzlich werden komplexe aber vielfach nützliche Anfragen als Templates vordefiniert. Ferner wird gezeigt, wie XSLT-Stylesheets verwendet werden können, um Ergebnisse zu filtern, sodass der Benutzer auf komfortablem Weg Datenmengen zusammenstellen kann, die sonst eine aufwendige Nachbereitung der Daten erfordern würden.
Both the resources contained in the system as well as the processes performed are represented in XML and XSLT/XPath. I report on the experiences with XML-processing in this application, discussing both advantages and shortcomings.
This work has been carried out jointly with Peter Fankhauser from Fraunhofer IPSI, Darmstadt.
References
Fankhauser P. and E. Teich, 2004. Multiple perspectives on text using
multiple resources: Experiences with XML processing, Proceedings of
the LREC Workshop on XML-based richly annotated corpora, 4th
International Conference on Language Resources and Evaluation (LREC),
May 2004, Lisboa, Portugal.
Fellbaum C. (ed.), 1998. WordNet: An Electronic Lexical Database. MIT
Press.
Kucera H. and W. N. Francis, 1967. Computational Analysis of
Present-Day American English, Brown University Press, Providence, RI.
Landes S., C. Leacock and R. I. Tengi, 1998. Building semantic
concordances. In C. Fellbaum (ed.), WordNet: An electronic lexical
database, MIT Press, Cambridge MA, pp. 199-216.
Teich E. and P. Fankhauser, 2003. WordNet for lexical cohesion
analysis, Proceedings of the 2nd Global WordNet Conference, January
2004, Masaryk University, Brno, Czech Republic.
In diesem Vortrag wird die inhaltliche und technische Konzeption eines diachronen Korpus des Deutschen beschrieben, das Texte vom Althochdeutschen (ca. 800) bis zum ülteren Neuhochdeutsch (ca. 1900) umfasst. Das Korpus entsteht in dem Projekt DeutschDiachronDigital (DDD). Das Projekt befindet sich noch in der Antragsphase, die Konzeption wurde in einem Vorprojekt entwickelt) und soll für Forschungsfragen der Linguistik, der Philologie, der Lexikographie und der Geschichtswissenschaften nutzbar sein. Die Daten der einzelnen Sprachstufen des Deutschen unterscheiden sich stark voneinander, zusätzlich gibt es eine große Variation innerhalb der Sprachstufen. Daraus ergibt sich, dass man eine flexible Architektur und gleichzeitig eine starke inhaltliche Standardisierung braucht.
Flexibilität Es muss möglich sein, dass verschiedene
Texte unterschiedlich tief annotiert sind und jederzeit weitere
Annotationsebenen hinzugefügt werden können. Dies wird durch
eine Stand-Off Architektur gewährleistet, deren kleinste
Adressierungseinheit das Zeichen ist. Das Korpus ist in einer
relationalen Datenbank gespeichert, Import und Export erfolgt durch
XML-Dateien in einer Client-Server-Architektur (für Details siehe
Dipper at al. 2004).
Standardisierung Zusätzlich zu einer einheitlichen
Headerstruktur und definierten Qualitäts- und
Diplomatizitätsstandards braucht das Korpus gemeinsame Tagsets
und Richtlinien für alle Annotationsebenen, die von mehr als
einer Sprachstufe genutzt werden.
Stefanie Dipper, Lukas Faulstich, Ulf Leser, and Anke Lüdeling (2004) Challenges in Modelling a Richly Annotated Diachronic corpus of German. In Proceedings of the LREC-2004 Workshop on XML-based Richly Annotated Corpora, Lissabon