Liste der angemeldeten Poster (alphabetisch, nach Autoren):
- Victoria Anyango Oketch
Institut für Deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin
Multilingualität und Lernerkorpora
Poster
- Tina Bögel
Universität Konstanz
Automatische Erkennung von Beziehungen innerhalb englischer Nomen-Komposita mit Hilfe von WordNet
Poster
- Caroline Clemens
Zentrum Mensch-Maschine-Systeme, Technische Universität Berlin,
Thomas Hempel
Siemens AG, Corporate Technology, User Interface Design, München; jetzt Siemens Audiologische Technik GmbH, Erlangen
Analyse von Logdateien automatischer Sprachdialogsysteme
Poster
- Irene Cramer
Faculty of Cultural Sciences, University of Dortmund,
Stefan Schacht
Spoken Language Systems, Saarland University
Named Entity Recognition for German Web Documents
Poster
- Seanna Doolittle, Hagen Hirschmann, Anke Lüdeling
Humboldt-Universität zu Berlin
Annotation von kanonischen und nichtkanonischen Äußerungen in Korpora
Poster
- Kurt Eberle
Lingenio GmbH, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart
Mehrdeutigkeitenbehandlung in translate
Demo
- Kurt Eberle, Manuel Kountz, Ulrich Heid
Institut für maschinelle Sprachverarbeitung, Universität Stuttgart
Unterspezifizierte Repräsentation und Desambiguierung sortal ambiger Nominalisierungen auf -ung
Poster + Demo
- Annette Hautli
Universität Konstanz
Hybridization of the XLE pipeline. Die Umwandlung von DCU F-Strukturen in PARC F-Strukturen
Poster
- Sebastian Kürschner
Center for Language and Cognition, Rijksuniversiteit Groningen
Abstandsmaße zwischen Dialekten und Sprachen -- Computerbasierte Methoden und perzeptionelle Validierung
Poster
- Thomas Mayer
Universität Konstanz
Semi-automatische Glossierung am Beispiel des Wolof
Poster + Demo
- Rainer Osswald
FernUniversität in Hagen
The Representation of Verb Meaning in Large-Scale Lexical Resources
Poster
- Sabine Schulte im Walde, Christian Hying, Helmut Schmid, Christian Scheible
Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart
Representing Underspecification by Semantic Verb Classes Incorporating Selectional Preferences
Poster + Demo
- Ineta Sejane, Roman Schneider, Helmut Frosch, Bruno Strecker
IDS, Mannheim
Ontologie zur deutschen Grammatik im Online-Informationssystems grammis
Poster + Demo
- Kathrin Spreyer, Jonas Kuhn, Bettina Schrader
Institut für Linguistik, Universität Potsdam
Experiments in Multi-Parallel Annotation Projection
Poster
- Maik Walter, Karin Schmidt
Freie Universität Berlin
Der Gebrauch von Kausalmarkern bei fortgeschrittenen Lernern des Deutschen als Fremdsprache - eine Lernerkorpusanalyse in Falko
Poster
Abstracts:
Victoria Anyango Oketch
Institut für Deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin
Multilingualität und Lernerkorpora
Bei meinem Poster geht es darum zu zeigen, inwieweit Lernerkorpora für die Erforschung der unterschiedlichen Einflüsse verschiedener bereits gelernter Sprachen auf die zu erlernende Fremdsprache Deutsch dienen können.
Lernerkorpora haben sich in den letzten Jahren als eine gute Datengrundlage für viele Fragen der Erforschung von Spracherwerbsverläufen etabliert. Dabei gibt es viele Studien zum Einfluss der jeweiligen Muttersprache auf den Erwerbsverlauf in der Fremdsprache. Viele Lerner sind allerdings nicht bilingual, sondern multilingual (wobei es unterschiedliche chronologische Verläufe der bisher gelernten Sprachen gibt), und die Ln haben jeweils Einflüsse auf die neu zu lernende Sprache Ln+1.
Ich habe im Rahmen des Falko-Projekts (http://www2.hu-berlin.de/korpling/projekte/falko/index.php) in Kenia, einem Land mit hoher Mehrsprachigkeitsquote ein Essaykorpus erhoben und diskutieren, wie die Einflüsse der jeweiligen Ln ermittelt werden können.
Tina Bögel
Universität Konstanz
Automatische Erkennung von Beziehungen innerhalb englischer Nomen-Komposita mit Hilfe von WordNet
Nomen innerhalb von Komposita bilden zahlreiche verschiedene Beziehungen zueinander. Diese Beziehungen werden meist nicht dargestellt, da sie sehr komplex sind. Wünschenswert wären jedoch spezifische Rollen, die die Beziehungen zwischen den Nomen genauer ausdrücken.
In dieser Demo wird ein Ansatz, der für die automatische Erkennung von Komposita-Beziehungen genutzt werden könnte, vorgestellt. Die Implementation erfolgte im Rahmen von Arbeiten an der englischen Pargram Grammatik, die mit Hilfe der XLE Plattform erstellt wurde (Butt et al. 1998).
Mangelnde lexikalische Resourcen erschweren eine automatische Analyse von Komposita. Rückschlüsse über die Beziehungen innerhalb von Nomen-Komposita lassen sich jedoch basierend auf der frei zugänglichen, in WordNet (Fellbaum 1998) integrierten Hierarchie von Hyperonymen ziehen. WordNet ordnet Nomen übergeordneten abstrakten Begriffen zu. Im Komposita "wood box" beispielsweise würde "wood" der WordNet-Kategorie Material und "box" der Kategorie Behälter, gleichzeitig jedoch auch der Kategorie Artefakt zugeteilt. Ein Artefakt kann aus Material gemacht sein; Behälter wiederum können Material beinhalten. Beide Beziehungen sind plausibel für das Komposita "wood box" und sollten auch ausgedrückt werden: als role(contain, box, wood) und role(made_of, box, wood).
Ordnet man nun Nomen basierend auf ihren Hyperonymen Kategorien zu und definiert die Beziehungen, die die einzelnen Kategorien miteinander eingehen können, so kann man den Komposita spezifische Rollen zuteilen, die die Relationen der einzelnen Elemente zueinander zum Ausdruck bringen. Mit Hilfe von WordNet lässt sich so relativ einfach eine breite automatische Erkennung von Beziehungen zwischen Komposita-Mitgliedern erreichen.
Caroline Clemens1, Thomas Hempel2
1 Zentrum Mensch-Maschine-Systeme, Technische Universität Berlin, 2 Siemens AG, Corporate Technology, User Interface Design, München; jetzt Siemens Audiologische Technik GmbH, Erlangen
Analyse von Logdateien automatischer Sprachdialogsysteme
In automatischen Sprachdialogsystemen findet ein mündlicher Dialog zwischen Mensch und Computer statt. Die Eingaben des Benutzers in gesprochener Sprache werden durch automatische Spracherkennung erfasst. Alternativ können bei manchen Systemen die Eingaben im Mehrfrequenz-Wahlverfahren per Tastendruck erfolgen (sog. "Touchtone"). Die Ausgaben des Systems werden entweder als Audio-Aufzeichnung abgespielt oder es wird aus einem geschriebenen Text synthetische Sprache generiert (sog. Text-to-Speech-Verfahren).
Sprachdialogsysteme finden zunehmend Anwendung als Telefonie-Applikationen. Sie automatisieren Anrufe, die in großer Anzahl stattfinden und in denen immer wieder die gleichen Informationen abgefragt oder die gleichen Transaktionen getätigt werden. Bekannte Beispiele sind Sprachdialogsysteme zu Fahrplanauskünften öffentlicher Verkehrsmittel oder zum Telefon-Banking.
Die automatische Spracherkennung hat seit einigen Jahren eine akzeptable Qualität erreicht und die Verbesserung der Dialogsysteme konzentriert sich auf eine benutzerfreundliche Gestaltung der Dialogsysteme. Da die Systeme für eine große Anzahl von Benutzern gestaltet werden müssen, ist es sinnvoll, dass sich die Systeme automatisch an den einzelnen Benutzer anpassen. Im Dialogdesign können dann Dialog-Architektur, Audiodesign, Grammatiken etc. auf den Benutzer abgestimmt werden.
Voraussetzung für eine solche Adaptivität der Systeme ist, dass Merkmale des Benutzers gewonnen werden, an die sich das System anpassen kann. Hierzu können Logdateien verwendet werden, die während eines Dialogs einzelne Ereignisse mit genauer Zeitangabe dokumentieren, zum Beispiel wann ein Benutzer einen bestimmten Menupunkt wählt. So kann das Interaktionsverhalten eines Benutzers in Form messbarer, aussagekräftiger Daten erfasst werden.
Im vorgestellten Projekt wurde untersucht, welche Informationen über den Benutzer aus Logdateien automatisch gewonnen werden können und wie diese Informationen der Adaptivität der Sprachdialogsysteme dienen können. Die Daten wurden in einer Untersuchung erhoben, bei der die Teilnehmer ein prototypisches Sprachdialogsystem benutzt haben. Zusätzlich zu den Logdateien wurden Informationsquellen wie Fragebögen und Interviews herangezogen, um durch qualitative Daten die Einteilung der Benutzer nach deren Interaktionsverhalten zu unterstützen.
Irene Cramer1, Stefan Schacht2
1 Faculty of Cultural Sciences, University of Dortmund, 2 Spoken Language Systems, Saarland University
Named Entity Recognition for German Web Documents
Named Entity Recognition (NER) is a crucial technology in many NLP applications, such as Information Extraction and Question Answering. In recent years, various methods, both rule based and machine learning based, have been investigated to solve this task for English. However, there are only few NER systems for German corpora and no freely available system is able to cope with Web documents. In this work, we present our NER system, called Nada, which implements an AdaBoost algorithm (see Viola and Jones, 2001). We trained this system on CoNLL (Tjong Kim Sang and De Meulder, 2003) data and a sample of semi-automatically annotated Web data extracted from the WaCky corpus1. In addition to the well-established feature sets focussing on tokens and small context windows, we also integrated discourse features and exhaustive name lists extracted from wikipedia2 among others. Since there exist various Named Entity definitions, we designed our system modularly in order to facilitate the fast and simple integration of new/alternative entity types3. We evaluated our system on CoNLL and Web data with very promising results. Our NER system and the annotation of the Web data will be freely available for download.
References:
TJONG KIM SANG, E. F. / DE MEULDER, F. (2003): Introduction to the CoNLL Shared Task: Language Independent Named Entity Recognition. Proceedings of the Conference on Computational Natural Language Learning.
VIOLA, P. / JONES, M. (2001): Rapid Object Detection Using a Boosted Cascade of Simple Features. Proceedings of the IEEE Conference Computer Vision and Pattern Recognition, 2001.
Seanna Doolittle, Hagen Hirschmann, Anke Lüdeling
Humboldt-Universität zu Berlin
Annotation von kanonischen und nichtkanonischen Äußerungen in Korpora
Das Poster stellt eine Methode dar, nach welcher sowohl kanonische als auch nichtkanonische Äußerungen in demselben Korpus annotiert werden können. Wir definieren 'kanonisch' als 'durch das gegebene Schema beschreibbar' und 'nichtkanonisch' als 'nicht durch das Schema beschreibbar'.
(Syntaktische) Annotationsschemata bauen meist auf einer Theorie auf, die für eine standardisierte (schriftsprachliche) Varietät entwickelt wurde. In vielen Korpora gibt es jedoch Äußerungen, die durch die gegebenen Schemata nicht befriedigend annotiert werden können.
In vielen linguistischen Fragestellungen ist es allerdings interessant, sowohl kanonische als auch nichtkanonische Äußerungen in einem Korpus zu finden (bzw. systematisch unterscheiden zu können) und gerade unterschiedliche Arten der Abweichung von dem gegebenen Schema suchen zu können.
Dabei können Abweichungen entweder Fehler sein (was unter anderem bei der Untersuchung von Lernersprache aufschlussreich ist) oder betrachtungsrelevante Eigenschaften einer Varietät (zum Beispiel gesprochene Sprache) darstellen.
Dies bezieht sich auf alle Arten von nichtkanonischen Äußerungen; exemplarisch wird auf dem Poster die Annotation von Wortstellung vorgestellt.
Die Annotation erfolgt in einem Mehrebenenverfahren, welches durch die Mehrebenenarchitektur des Korpus ermöglicht wird (siehe auch Hirschmann, Doolittle, Lüdeling 20071). Sätze mit kanonischer Wortstellung werden nach dem Stellungsfeldermodell (vgl. Höhle 19862) annotiert. Für die Sätze mit nichtkanonischer Wortstellung erfolgt eine Annotation in drei Schritten:
(1)Sie werden als nicht annotierbar (gemäß dem Stellungsfeldermodell) gekennzeichnet.
(2)Auf einer weiteren Annotationsebene erfolgt die Zuordnung einer entsprechenden kanonischen Struktur, welche nun nach dem Stellungsfeldermodell annotiert wird.
(3)In einem dritten Schritt wird die Abweichung zwischen der nichtkanonischen und der kanonischen Struktur beschrieben (dies entspricht der Beschreibung von Wortstellungsfehlern bzw. einem Fehlertagging).
Zudem demonstrieren wir weitere Anwendungen dieser Methode anhand mehrerer Korpusbeispiele, die unterschiedlichen Varietäten entstammen.
Kurt Eberle
Lingenio GmbH, Universität Stuttgart, Institut für maschinelle Sprachverarbeitung
Mehrdeutigkeitenbehandlung in translate
Die am Markt befindlichen Versionen von translate weisen strukturell mehrdeutigen Sätzen entsprechend verschiedene syntaktische Analysen zu, auf Basis der Slot Grammar, einer Dependenz- und Unifikationsgrammatik die der Logic based Machine Translation Architektur (LMT) der IBM zugrunde liegt, aus der die Software entstanden ist (McCord 89, McCord 91). Aus den Ergebnissen der deklarativen Grammatik wird mit Hilfe von Evaluierungsregeln eine Analyse ausgewählt (bzw. mehrere bevorzugte bei entsprechender Einstellung des Systems) aus der (oder denen) mit den Informationen des bilingualen Lexikons eine Übersetzung konstruiert wird (oder mehrere), wobei bei der Wahl von Transferäquivalenten die strukturellen Gegebenheiten des Quellsatzes (und seines Kontexts) inspiziert und berücksichtigt werden.
Bei der neuen im Oktober 2007 erschienenen Version 11 wird dieses Verfahren komplettiert durch eine Berechnung der Wahrscheinlichkeiten der Übersetzungsalternativen der Quellwörter auf der Grundlage des Kontextes und statistischer aus dem Europarl-Corpus mit den Analysewerkzeugen von translate gewonnener Übersetzungsinformation, sodass Übersetzungsalternativen entsprechend priorisiert im übersetzten Text angezeigt werden können.
Bei der Präsentation wird neben dem Produkt die Entwicklungsumgebung von translate vorgestellt, sodass Einblick in die Berechnung der Transferalternativen und in die Daten genommen werden kann.
translate weist syntaktischen Strukturen flache semantische Repräsentationen zu, die der eigentliche Input des Transferalgorithmus sind (Eberle 01).
In der vorgeführten Entwicklungsumgebung ist diese Abbildung in der Weise erweitert, dass strukturell mehrdeutigen Sätzen unterspezifizierte Repräsentationen zugewiesen werden, die bei Vorliegen disambiguierender kontextueller Gegebenheiten dynamisch entsprechend spezifiziert werden können. Diese Repräsentationen tragen Dekorationen zur Verwaltung der Diskursreferenten und deren Eigenschaften, die sich in ausgezeichneter Weise dafür eignen, Verfahren zur Berechnung der sortalen Eigenschaften von Diskursreferenten, wie das im Poster Unterspezifizierte Repräsentation und Desambiguierung sortal ambiger Nominalisierungen auf -ung beschriebene, zu integrieren.
In der Präsentation wird eine prototypische Implementierung dieses Verfahrens vorgeführt und an Beispielen demonstriert, wie einschlägige Kontextfaktoren unterschiedliche Ergebnisse bewirken und wie diese die Übersetzung beeinflussen.
Kurt Eberle. 2001. FUDR-based MT, head switching and the lexicon. In: Proceedings of the eighth Machine Translation Summit, Santiago de Compostela
Michael McCord. 1989. Design of LMT. In: Computational Linguistics (15)
Michael McCord. 1991. The Slot Grammar System. In: Wedekind, J. & Rohrer, Ch. (eds.): Unification in Grammar, MIT-Press
Kurt Eberle, Manuel Kountz, Ulrich Heid
Universität Stuttgart, Institut für maschinelle Sprachverarbeitung
Unterspezifizierte Repräsentation und Desambiguierung sortal ambiger Nominalisierungen auf -ung
Viele deutsche Nominalisierungen auf -ung (Messung, Teilung, Fälschung) sind bezüglich der Sorte ambig: Messung kann im Kontext eines Satzes einen Vorgang oder dessen Resultatsobjekt (Messdaten) bezeichnen; Teilung hat neben der Ereignislesart eine Lesart als Resultatszustand, usw.
Die sortale Desambiguierung solcher Nominalisierungen in Corpustexten beruht auf der Ausnutzung von Lesart-Indikatoren aus dem Satzkontext. Ähnlich wie in den von Ehrich/Rapp (2000) vorgeschlagenen Tests können z.B. Prädikate der Dauer dazu benutzt werden, Ereignislesarten zu identifizieren (die Messung dauert 3 Stunden); neben lexikalischen Indikatoren lassen auch bestimmte strukturelle Gegebenheiten nur den Schluss auf eine sortale Lesart zu (das Geld verschaffte sie sich durch Fälschung von Schecks: durch + artikellose NP zeigt eine Ereignislesart an).
Die Desambiguierung der Nominalisierungen setzt auf einer Dependenzanalyse der betreffenden Sätze auf (vgl. Kountz/Heid/Spranger 2007). Der Algorithmus geht von der zu analysierenden -ung-Nominalisierung aus, für die im allgemeinen Fall zunächst angenommen wird, dass alle sortalen Lesarten (Ereignis, Resultatszustand, Objekt) zugänglich sind. Sodann werden die von der Nominalisierungs-NP abhängigen Knoten der Dependenzstruktur darauf untersucht, ob sie Lesartindikatoren enthalten; liegen lexikalische oder strukturelle Indikatoren vor, so führen diese Constraints in den Desambiguierungsprozess ein, deren Anwendung zu lokalen Lesartpräferenzen führt. Sind die Dependenzen abgearbeitet, wird im Dependenzbaum weiter nach oben gegangen, d.h. zunehmend größere Kontexte werden berücksichtigt. Der Prozess wird wiederholt, bis der Hauptknoten des Satzes erreicht und die für den Satz gültige Lesart (oder Lesarten) ausgegeben wird (vgl. Spranger/Heid 2007).
Das Poster stellt die Prinzipien des Verfahrens dar und zeigt Beispiele. Die Demonstration einer prototypischen Implementierung im Rahmen der Grammatik der MÜ-Software translate (Lingenio GmbH, Heidelberg) zeigt Details einer möglichen Realisierung und gleichzeitig die Relevanz solcher Verfahren für Anwendungen wie die maschinelle Übersetzung.
Literatur
Veronika Ehrich, Irene Rapp (2000): "Sortale Bedeutung und Argumentstruktur: -ung-Nominalisierungen im Deutschen", in: Zeitschrift für Sprachwissenschaft 19, 2000, SS. 245-303.
Kristina Spranger, Ulrich Heid (2007): "Applying Constraints derived from the Context in the process of Incremental Sortal Specification of German -ung-Nominalizations", in: Henning Christiansen, Jørgen Villadsen (Eds.): Proceedings of the 4th International Workshop on Constraints and Language Processing, CSLP@Context 07, Roskilde, Computer Science -- Roskilde University, (Heidelberg: Springer), 2007, SS. 65-77, [= LNAI Series].
Manuel Kountz, Ulrich Heid, Kristina Spranger (2007): "Automatic sortal Interpretation of German Nominalisations with -ung. Towards using uderspecified Representations in Corpora", erscheint in: Proceedings of Corpus Linguistics 2007, (Birmingham: University of Birmingham), Juli 2007, [CD-ROM, Website: http://ucrel.lancs.ac.uk/publications/CL2007/].
Annette Hautli
Universität Konstanz
Hybridization of the XLE pipeline. Die Umwandlung von DCU F-Strukturen in PARC F-Strukturen
Die große ParGram-Grammatik des Englischen (Butt et al. 1999), die in PARC (Palo Alto Research Center) im Rahmen der Lexical-Functional Grammar (LFG, Bresnan und Kaplan 1982) weiterentwickelt wird, basiert auf einem Regelsystem im Sinne einer generativen, kontextfreien Grammatik und umfasst unter anderem eine auf Transferregeln basierende Semantik. Input zu dieser Semantik ist die syntaktische Ebene der F(unktional)-Strukturen. Während PARC F-Strukturen aufgrund von Regeln generiert, kann die Dublin City University (DCU) wahrscheinlichkeitsbasierte F-Strukturen ermitteln, die zwar an Informationsgehalt deutlich hinter den F-Strukturen von PARC liegen, dafür aber wesentlich zeitsparender zu generieren sind.
Mit Hilfe eines Transfersystems wurde nun getestet, ob die wahrscheinlichkeitsbasierten F-Strukturen der DCU so zu modifizieren sind, dass sie als Input in die Semantik von PARC dienen können. Dabei ging es vor allem um die Konvertierung von fragmentierten Sätzen, die für die englische Grammatik prinzipiell schwerer zu analysieren sind. Mit Hilfe des Annotations-Algorithmus der DCU (Burke 2006) können diese Fragmente in relativ kurzer Zeit robust analysiert werden. Das Problem dabei war, wie oben schon angedeutet, der geringere Informationsgehalt der DCU F-Strukturen und der teilweise sehr unterschiedliche Aufbau der F-Strukturen. Dies ist insbesondere in Fragesätzen und Imperativsätzen der Fall, was aber auf die Struktur der Trainingsdaten zurückzuführen ist.
Die Ergebnisse des Matchings zwischen DCU- und PARC F-Strukturen sehen entgegen der Unterschiedlichkeit der Systeme vielversprechend aus. Indikativsätze weisen eine Ähnlichkeit von 72.13 Prozent auf. Bei Verwendung der probabilistischen Strukturen als Input in die PARC-Semantik kommt es zu einem Matching zwischen den semantischen PARC-Strukturen und den durch DCU-Input erzeugten Strukturen von 65 Prozent. In den noch folgenden Schritten sollen weitere Korpora verglichen und das Transfersystem weiter ausgebaut werden.
Literatur
Burke, Michael (2006). Automatic Treebank Annotation for the Acquisition of LFG Resources, PhD thesis, Dublin City University.
Sebastian Kürschner
Rijksuniversiteit Groningen, Center for Language and Cognition
Abstandsmaße zwischen Dialekten und Sprachen -- Computerbasierte Methoden und perzeptionelle Validierung
In zwei Forschungsprojekten entwickeln und nutzen wir an der Universität Groningen dialektometrische Methoden zur Messung von Sprachabständen. Neben einem Projekt zum niederländischen Dialektvergleich ("Mutual intelligibility in the Lowlands", vgl. http://www.let.rug.nl/alfa/ovvt/) werden diese Methoden in einem zweiten Projekt erstmals auch zum Vergleich mehrerer germanischer Sprachen verwendet ("Mutual Intelligibility of Closely Related Languages", vgl. http://www.let.rug.nl/micrela/). Ziel der Messungen ist der Gewinn objektiver sprachlicher Abstände. Diese werden mit den Ergebnissen von Perzeptionsexperimenten korreliert, um ein besseres Verständnis der linguistischen Grundlagen gegenseitiger Verständlichkeit sprachlicher Varietäten zu gewinnen.
Unter anderem wird für die Messung der Levenshtein-Abstand ("String edit distance") verwendet, der phonetische Abstände zwischen Sprachen auf Grundlage des Abgleichs von Lautfolgen bestimmt. Die Abstandsbemessung erfolgt durch Zählen der nötigen Austausch- oder Ergänzungsoperationen im Vergleich zur Gesamtzahl der verglichenen Laute: Vergleicht man z. B. die Lautketten dt. [bu:x] und nl. [bu:k], so ergibt sich beim dritten Laut, dass eine Substitution vorgenommen werden muss, um [x] und [k] aufeinander abzubilden, während für die ersten beiden Laute aufgrund ihrer Gleichförmigkeit keine Operationen nötig sind. Berechnet man den Aufwand für die Substitution mit 1, so liegt der Abstand bei 1/3, also 33,3 %. Auf Grundlage der Levenshtein-Abgleiche konnten weitere Messmethoden entwickelt werden, etwa eine Berechnung der Laut-zu-Laut-Korrespondenzen für große Parallelkorpora.
Aus der Korrelation mit den Ergebnissen von Perzeptionsexperimenten hat sich allerdings ergeben, dass Abstände zwischen Varietäten keineswegs immer so symmetrisch sind, wie es durch den Levenshtein-Abstand suggeriert wird. Zum Beispiel ist beim Sprachenpaar Dänisch-Schwedisch ein weitaus höheres Verständnis des Schwedischen durch dänische Hörer zu verzeichnen als umgekehrt. Mit Hilfe des Maßes der konditionellen Entropie konnte auch für asymmetrische Abstände eine Berechnungsmethode gefunden werden, die den Ergebnissen von Perzeptionstests nahe kommt. Im Poster werden einige Messmethoden vorgestellt und bezüglich der Validierung anhand von Perzeptionsdaten diskutiert. Weiterhin soll ein Ausblick die Verwendung dialektometrischer Methoden für Dialekt- vs. Sprachvergleiche thematisieren.
Thomas Mayer
Universität Konstanz
Semi-automatische Glossierung am Beispiel des Wolof
Interlinearglossierungen geben Aufschluss über die Bedeutungen und grammatischen Eigenschaften einzelner Wörter und Teile von Wörtern und tragen zum besseren Verständnis von Beispielsätzen in weniger bekannten Sprachen bei. Das Erstellen einer solchen Interlinearglossierung ist allerdings für größere Textmengen eine mühevolle und aufwändigeArbeit, die sich zum großen Teil auf den Abgleich von Wortlisten und morphologischen Bildungsmustern beschränkt und gerade zu Beginn der Arbeit mit einer neuen Sprache sehr zeitraubend ist. Für den Feldforscher gibt es zu diesem Zweck spezielle Datenbank-Software (Toolbox1 , ehemals Shoebox), die diese Arbeit erleichtert. Für den mit Originaltexten arbeitenden Typologen wäre es jedoch von Vorteil, wenn ein solches Hilfsmittel für unterschiedliche Sprachen online zur Verfügung stehen würde.
Die vorliegende Arbeit beschreibt den Prototyp eines solchen Tools, das auf der Grundlage der Finite-State-Technologie, insbesondere der xfst-Applikation (Beesley & Karttunen, 2003), aus dem Originaltext eine Interlinearglossierung erstellt, welche auf einer zugrundeliegenden Wortliste sowie zusätzlichen Informationen zur Morphologie der jeweiligen Sprache basiert. Da das System nur auf Wortebene arbeitet und daher auf keine Kontextinformationen im Satz zugreift, erhält der Benutzer die Möglichkeit, aus etwaigen Alternativen die gewünschte Morphemanalyse zu wählen, die danach wiederum die entsprechende Segmentierung des Ausgangswortes bewirkt.
Die Anwendung2 wird beispielhaft anhand der Niger-Kongo-Sprache Wolof illustriert. Zu diesem Zweck wurde für das Wolof eine Wortliste (ca. 2000 Wörter) sowie eine Finite-State-Morphologie erstellt. Die Morphologie des Wolof beschränkt sich auf wenige Suffigierungsregeln, die nur teilweise auf phonologischen Kontext Bezug nehmen und das volle Potenzial der zugrundeliegenden Finite-State-Technologie bei weitem nicht ausschöpfen.
Literatur
Beesley, Kenneth R., and Lauri Karttunen. 2003. Finite State Morphology. CSLI Studies in computational linguistics. Stanford, CA: CSLI Publications.
Rainer Osswald
FernUniversität in Hagen
The Representation of Verb Meaning in Large-Scale Lexical Resources
There are meanwhile a number of computational lexical semantic resources comprising several thousands of verb entries, especially but not exclusively for the English language. Examples are the lexicons of the WordNet and the FrameNet family, the VerbNet resource, the LCS database, and the OntoSem and the SIMPLE lexicons. These resources differ considerably in their underlying theoretical framework and thus in their representation of verb meanings. For example, they disagree with respect to using event structure decompositions, backbone ontologies, or semantic classes derived from lexico-grammatical patterns.
I will focus on the question as to what extent the verb semantic representations in the foregoing lexical resources satisfy the following two desiderata: (1) The representation is integrated into a full-fledged semantic formalism that allows inferential reasoning on the level of sentences and texts. (2) The representation serves as an explanatory basis for effects at the syntax-semantics interface, i.e., allows predictions on argument realization, adverbial modification, etc. Unsurprisingly, all resources show deficiencies in one way or another. For instance, although Fillmore and Atkins in their outline of a frame-based lexicon emphasize the relationship between lexical meanings and lexico-grammatical patterns, the definition of frames in FrameNet rests primarily on intuitive grounds without taking syntactic realizations into account. In contrast, I will argue for a careful stipulation of semantic primitives and decompositions based on a variety of lexico-grammatical patterns. The approach will be exemplified for the domain of psychological verbs in German and English. Moreover, I will address the tension between linguistically motivated and conceptually based semantic representations, which concerns the compatibility of (1) and (2).
Sabine Schulte im Walde, Christian Hying, Helmut Schmid, Christian Scheible
Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart
Representing Underspecification by Semantic Verb Classes Incorporating Selectional Preferences
Semantic verb classifications, i.e., groupings of verbs according to semantic properties, are of great interest to both theoretical and computational linguistics. In theoretical linguistics, verb classes are a useful means to organise verbs with respect to common properties, such as meaning components, or shared argument structure. In computational linguistics, semantic verb classifications represent a valuable source of underspecification, by generalising over the verbs according to their shared properties.
Our poster presents a novel approach to a semantic classification of verbs, that incorporates selectional preferences as common verb properties. We rely on the Expectation-Maximisation (EM) Algorithm as a soft-clustering technique, and model verb classification by probabilistic class membership of verbs and their semantic properties. In contrast to earlier work, we choose a more complex set of semantic properties: rather than directly using bilexical head dependencies between verbs and (direct object) nouns as clustering dimensions, we abstract over the noun dimension by selectional preferences. Consequently, a semantic class generalises over verb senses (as one dimension), and selectional preferences (as a second dimension). The classification approach is introduced in some detail, by providing an overview of the parameters of the clustering technique, and a range of examples.
Ineta Sejane, Roman Schneider, Helmut Frosch, Bruno Strecker
IDS, Mannheim
Ontologie zur deutschen Grammatik im Online-Informationssystems grammis
Angesichts der stetig steigenden Zahl der Publikationen zur deutschen Grammatik wird es zunehmend schwerer, sich einen Überblick über die Thematik zu verschaffen und an benutzergerecht aufbereitete Informationen zu gelangen. Diesen Aufgaben widmet sich die Online-Informationsplattform zur deutschen Grammatik grammis am Institut für Deutsche Sprache, Mannheim. Die vier Informationseinheiten:
- Systematische Grammatik
- Grammatik in Fragen und Antworten
- Terminologisches Wörterbuch
- Bibliographie zur deutschen Grammatik
mit jeweils unterschiedlichen Zielsetzungen werden neuerdings mittels einer Ontologie zur deutschen Grammatik miteinander verbunden.
Die Ontologie-Einheit in grammis baut auf Erkenntnissen der Informationswissenschaft und der Ontologieforschung in der Informatik auf. Das relevante Fachvokabular sowie Relationen zwischen den einzelnen Begriffen wurden teils durch statistische Verfahren aus Korpora extrahiert, teils durch Experten kontrolliert, verfeinert und ergänzt. Die Ontologie bietet eine Uuml;bersicht über die Einzelbereiche der deutschen Grammatik und hilft dem Benutzer, durch kurze definitorische Erklärungen sein terminologisches Wissen aufzufrischen bzw. zu überprüfen. Die Haupthürde in diesem Vorhaben war die ausgeprägte Polysemie und die lockere Synonymie der grammatischen Terminologie, die aus parallel existierenden, historisch gewachsenen Forschungsrichtungen, unterschiedlichen Zielgruppen und der allgemein für das Fach charakteristischen relativen Benennungs- und Definitionsfreiheit resultieren. Um diesen Umständen Rechnung zu tragen, wurde die Ontologie von Anfang an vielschichtig und leicht durch zusätzliche Informationen erweiterbar konzipiert.
Von der Ontologie-Schnittstelle aus kann eine Suche angestoßen werden, die nach Begriffen, die durch verschiedene im weitesten Sinne synonyme Termini dargestellt sind, und Begriffskombinationen sucht. Das Ergebnis ist eine Liste mit Hyperlinks zu den betreffenden Texten in grammis. Damit dient die Ontologie vor allem der Erschließung der Fachinformation in digitalen Texten, aber implizit durchaus auch didaktischen und vielfältigen informativen Zwecken. Die Ontologie soll in Zukunft auch zur Erschließung weiterer Quellen zur deutschen Grammatik benutzt werden.
Kathrin Spreyer, Jonas Kuhn, Bettina Schrader
Institut für Linguistik, Universität Potsdam
Experiments in Multi-Parallel Annotation Projection
We propose a methodology for explorative linguistic search on large corpora that does not presuppose any higher-level NLP tools for the language under consideration. Instead, it uses existing tools in additional languages and parallel corpora to bridge across the languages. For the initial experiments, the goal is to bootstrap an argument-head classifier for some language C lacking a parser, given a parallel corpus of languages A, B, C, where compatible parsers exist for A and B. We pretend that Dutch is a language of type C and use broad-coverage LFG parsers for English and German as languages A and B. The (lexical) heads and arguments are projected to C from the parses of languages A and B, via the word alignments.
Our data set comprises 154 sentence triples where i) the German verb has roughly 1000 occurrences in the Europarl corpus, ii) it is aligned to both Dutch and English, iii) both grammars assign a parse, and iv) for which the projected classifications of the German and English grammars agreed. Manual assessment of these projections revealed that 28% of the projected data was erroneous because of misalignments. Divergencies and translation shifts caused errors in 21% of the data. On the remaining data, projection achieves 83.0% precision and 59.2% recall. A loglinear model trained directly from these projections achieved a precision of 81.8% and a recall of 57.5%.
Clearly, the amount of data underlying these experiments is too small to yield statistically significant results. However, it shows directions for improvement which we will explore on a larger scale.
Maik Walter, Karin Schmidt
Freie Universität Berlin
Der Gebrauch von Kausalmarkern bei fortgeschrittenen Lernern des Deutschen als Fremdsprache - eine Lernerkorpusanalyse in Falko
Für das Konzept der Kausalität stehen im Deutschen verschiedene lexiko-grammatische Mittel zur Verfügung (Blühdorn et al. 2004). Zu den wichtigsten Mitteln gehören Kausalmarker wie weil, da, deshalb. Der Gebrauch dieser Gruppe von Konnektoren bei fortgeschrittenen Lernern des Deutschen als Fremdsprache ist der Gegenstand unserer Untersuchung. Dies geschieht auf der Folie des Handbuchs der deutschen Konnektoren und der Untersuchung von Frohning (2007), in der Gebrauchspräferenzen einzelner Kausalmarker herausgearbeitet wurden.
Wir nutzen für die Analyse das fehlerannotierte Lernerkorpus Falko, das im Rahmen eines Kooperationsprojekts zwischen der Freien Universität Berlin und der Humboldt-Universität zu Berlin sowie unter der Beteilung der Georgetown University Washington, D.C. (http://www2.hu-berlin.de/korpling/projekte/falko/index.php) entstanden ist. Neben der Präsentation unserer Ergebnisse werden wir das Lernerkorpus Falko kurz vorstellen und dabei insbesondere auf die Design-Faktoren von Lernerkorpora eingehen.
Literatur:
Blühdorn Hardarik et al. (Hrsg.) 2004. Brücken schlagen. Grundlagen der Konnektorensemantik. Berlin/New York: Walter de Gruyter.
Pasch Renate et al. 2003. Handbuch der deutschen Konnektoren. Linguistische Grundlagen der Beschreibung und syntaktische Merkmale der deutschen Satzverknüpfer (Konjunktionen, Satzadverbien und Partikeln). Berlin/New York: Walter de Gruyter.
Lüdeling, Anke et al. 2005. Multi-level error annotation in learner corpora. Proceedings of the Corpus Linguistics 2005, Birmingham.
Lüdeling, Anke et al. 2008. Das Lernerkorpus Falko. Erscheint in Deutsch als Fremdsprache.
Frohning, Dagmar 2007. Kausalmarker zwischen Pragmatik und Kognition. Korpusbasierte Analysen zur Variation im Deutschen. Tübingen: Niemeyer.
Walter, Maik & Patrick Grommes 2008. Die Entdeckung des fortgeschrittenen Lerners in der Varietätenlinguistik. In: Walter, Maik & Patrick Grommes (eds.), Fortgeschrittene Lernervarietäten: Zweitspracherwerbsforschung und Korpuslinguistik. Tübingen: Niemeyer.