Was ist statistische maschinelle Übersetzung?
Bei der herkömmlichen maschinellen Übersetzung muss enorm viel linguistisches
Wissen über jede Ziel- und Quellsprache von Hand durch Linguisten in den
Computer eingegeben werden. Die statistische MÜ setzt korpusbasierte
Lernverfahren ein, um diesen Flaschenhals zu umgehen. Der Computer soll aus
einer großen Zahl von Beispielen selbstständig lernen, wie man übersetzt. Als
Datenbasis nutzt man parallele Korpora, die aus Satzpaaren bestehen, die jeweils
Übersetzungen voneinander sind. Diese Quellen werden von statistischen
Algorithmen zu unterschiedlichen Zwecken ausgenutzt, z.B. um automatisch ein
zweisprachiges Wörterbuch zu generieren, zur Gewinnung von Regeln für den
syntaktischen Transfer, bis hin zum Entwurf eines kompletten rein statistisch
arbeitenden Übersetzungssystems, wie es von [Brown
et al. 1990] vorgeschlagen wurde.
[Bibiographien] [Forschungsprojekte] [Resourcen] [Firmen]
Bibliographien, Linksammlungen
Forschungsprojekte
Ressourcen
- Software
- Moses: phrasenbasiertes SMT-System in C++ mit LGPL-Lizenz.
- GIZA++ (Franz-Josef Och, RWTH Aachen): Erweiterung zum EGYPT-Kernstück GIZA
- EGYPT (John Hopkins University): Parameterbestimmung für die IBM-Modelle 1-4
- Thot: Toolkit zum Trainieren phrasen-basierter SMT-Modelle. Kann aus GIZA-Word-Alignment-Matrizen phrasenbasierte Modelle berechnen. Beschreibung hier.
- Dekodierer:
- Pharao: Dekodierer für phrasenbasierte SMT-Modelle
- Phramer: Open-Source-Dekodierer für phrasenbasierte SMT-Modelle, geschrieben in Java.
- ISI ReWrite-Decoder: Ein Greedy-Dekodierer für die IBM Modelle 1-4
- Wortalignierung:
- Satzalignierung:
- CMU SLM Toolkit: Statistische Sprachmodellierung
- Parallele Korpora
- UN Corpora: Resolutionen der Vereinten Nationen auf Arabisch, Chinesisch, Englisch, Französisch, Russisch und Spanisch. 3 Millionen Token pro Sprache, absatzweise aligniert, im TMX-Format.
- Hunglish corpus: über 2 Millionen englisch-ungarische Sätze zum Download oder online abfragbar.
- JRC-ACQUIS Multilingual Parallel Corpus: Rechtstexte der EU in allen 21 Amtssprachen.
- Aligned
Hansard-Korpus von U.
Germann (ReWrite-Projekt
des ISI)
- Zwei parallele Korpora von Philip
Köhn (MIT): de-news 1996-2000
(Nachrichten, ca. 58.000 Satzpaare dt.-engl.) und European Parliament
Proceedings 1996-2001 (ca. 620.000 Satzpaare, dt.-engl. u.a.)
- OPUS Open Source Parallel
Corpus, u.a. Texte aus dem EDV-Bereich und Untertitel, z.T. in über 60 Sprachen, online
abfragbar.
- Datensatz des Blinker-Projekts (Dan Melamed, NYU)
- University of Maryland
Parallel Corpus Project
Firmen
|
|