Kontakt

Postanschrift des Instituts

Universität Potsdam
Department Linguistik
Haus 14/35
Karl-Liebknecht-Straße 24-25
14476 Potsdam

Computerlinguistik

Tel.: 0331/977-2950/ 2544
Fax: 0331/977-2087
Email: essling@uni-potsdam.de

Grammatiktheorie

Tel.: 0331/977-2016
Fax: 0331/977-2925
Email: mauer@uni-potsdam.de

Patholinguistik

Tel.: 0331/977-2932
Fax: 0331/977-2095
Email: kaldewey@uni-potsdam.de

Deutsch (DE-CH-AT)English (United Kingdom)
Laufende Projekte Computerlinguistik
SemScribe

Gefördert durch das Bundesministerium für Wirtschaft und Technologie (BMWi)

Projektleitung: Professor Dr. Manfred Stede
Mitarbeiter: Heike Bieler, Peter Kolb
Laufzeit: August 2010 - Oktober 2011

In diesem Projekt entwickeln wir gemeinsam mit einem Industriepartner ein inkrementelles Textgenerierungsverfahren für die Erstellung medizinischer Texte.

Angelehnt an das Pipelinemodell nach Reiter/Dale (2000) setzen wir uns mit der Textplanung, Satzplanung und Realisierung bei der Produktion dieser Textsorten auseinander.  Anders als in Standard-Generierungs-Szenarien bauen wir nicht auf einer kompletten Inhaltsrepräsentation des Textes auf, sondern diese entsteht erst Schritt für Schritt durch die Eingaben des Arztes und wird dann jeweils unmittelbar an die Satzplanung weitergereicht. Der Arzt soll weiterhin die Möglichkeit haben, den entstandenen Text zu editieren, um etwaige Korrekturen oder auch stilistische Anpassungen vorzunehmen. Um diese Vorgehensweise zu unterstützen, wird ein vorhandener Textplan um weitere inhaltliche Elemente erweitert. Dabei wird die Verbindung zwischen einer generierten Texteinheit (Satz, Teilsatz, Phrase) und dem zugrundeliegenden Teil der semantischen Repräsentation explizit repräsentiert.

Literatur:

  • E. Reiter und R. Dale (2000). Building Natural-Language Generation Systems. Cambridge University Press

 
PTOLEMAIOS

Grammatikinduktion auf Basis von Parallelkorpora: PTOLEMAIOS (Parallel-Text-based Optimization for Language learning - Exploiting Multilingual Alignment for the Induction of Syntactic grammars) (DFG)

Im PTOLEMAIOS-Projekt soll eine neue Methode zur Erstellung von Computer-Grammatiken entwickelt werden, die es erlaubt, in kurzer Zeit und mit geringem Entwicklungsaufwand einen robusten Parser mittlerer Analysetiefe für eine neue Sprache zu entwickeln. Als Ressourcen werden lediglich ein Parallelkorpus benötigt, das übersetzte Texte in der Sprache und mindestens einer anderen Sprache enthält, sowie eine einfache manuelle Strukturannotation für eine verhältnismäßig kleine Teilmenge von Satz-Paaren oder -Tupeln aus diesem Parallelkorpus. Mehrsprachige Parallelkorpora sind heute für eine Vielzahl von Sprachen und domänenspezifische Subsprachen leicht zu erhalten. Zur Erstellung der Grammatiken werden Techniken aus dem maschinellen Lernen und Repräsentationsmodelle aus der theoretischen Linguistik verwendet. Das zugrundeliegende Grammatikmodell ist ein spezielles statistisches Modell, das auf dem Vergleich von Generierungsalternativen für eine zugrundeliegende Bedeutungsrepräsentation basiert. Im Lernprozess wird versucht, die sprachspezifische Gewichtung unterschiedlicher Faktoren zu bestimmen, die die beobachteten Sprachdaten am besten vorhersagt. Um mit geringen Mengen von handannotierten Daten auskommen zu können, wird keine echte Bedeutungsrepräsentation angenommen, sondern eine recht oberflächennahme Konsens-Strukturrepräsentation. Für diese gemeinsame 'Pseudo-Bedeutungspräsentation', die den verschiedensprachlichen Versionen eines Satzes aus dem Parallelkorpus zugeordnet wird, lässt sich ein automatisches Annotationsverfahren leichter trainieren.

DFG GEPRIS Präsenz

 
Linguistische Datenbank für Informationsstruktur

SFB 632 "Informationsstruktur" DFG, 2003-2011

Projektleitung: Professor Dr.Manfred Stede
Mitarbeiter: Dr.Stefanie Dipper
Tillmann Wegst (extern)
Michael Götze
stud.Hilfskräfte: Patrick Quahl

Das Projekt D1 stellt die technische Infrastruktur für die Erhebung, Verwaltung und Abfrage der im SFB erhobenen sprachlichen Daten zur Verfügung. Neben der Betreuung der Soft- und Hardware beinhaltet dies die Beratung der Einzelprojekte bei der Annotation, die Entwicklung einer komfortablen Abfragesprache und die Bereitstellung einer WWW-Schnittstelle für den weltweiten Datenzugriff.

Ein weiterer Schwerpunkt liegt auf der Entwicklung eines einheitlichen Annotationsformats für den SFB, das - aufbauend auf bestehenden Annotationsstandards wie CES oder TUSNELDA - in enger Kooperation mit Teilprojekt D2 geschaffen werden soll. Ein besonderes Augenmerk wird auf die systematische Integration informationsstruktureller Merkmale in bestehende Annotationsschemata gerichtet.

Die Datenbank wird die erste größere Sammlung von Daten typologisch verschiedenster Sprachen, die mit informationsstrukturellen Merkmalen nach standardisierten Kriterien annotiert sind. Ein intelligentes Abfragetool wird diese Ressource für die internationale Forschergemeinschaft zugänglich machen. (Für eine Beschreibung der ersten Version der Datenbank und des Tools siehe hier)

Kontakt: Stefanie Dipper: Diese E-Mail-Adresse ist gegen Spambots geschützt! JavaScript muss aktiviert werden, damit sie angezeigt werden kann.