Was ist Computerlinguistik, was sind Sprachdialogsysteme?

(Interview mit Thomas Raukamp für MacLife 09/2016; auch hier zu finden.)

Herr Professor Dr. Schlangen, was ist Computerlinguistik und warum betreibt man sie?

Wenn man es genauer betrachtet, ist es ein großes Wunder, dass wir nur durch Sprechen, also das Bewegen von Luft, so viel erreichen können: Wir können andere Menschen über etwas informieren, wir können sie überzeugen, etwas zu tun, wir können uns verabreden, gemeinsam etwas zu tun, und so weiter. Das ist eine Fähigkeit, die in dieser Komplexität nur Menschen besitzen. Die Linguistik versucht, die strukturellen Eigenschaften dieser Fähigkeit freizulegen; die Computerlinguistik versucht, diese Strukturen präzise zu beschreiben und, in der angewandten Computerlinguistik, diese Beschreibungen im Computer so umzusetzen, dass auch Computer sich sprachlich verhalten können. Computerlinguistik ist ein ideales Studienfach für alle, die diese Fähigkeit genauer verstehen wollen.

In welchen Anwendungsfeldern forschen Sie? Und welche sind für Sie am spannendsten in Bezug auf ihre Anwendbarkeit.

Ich forsche zu Dialogsystemen, also künstlichen Systemen, mit denen man über (gesprochene) Sprache interagieren kann – wie eben Apples Siri. Insbesondere interessiert uns, wie gemeinsames Verständnis erzeugt wird. Dazu reicht es nicht, nur den “Inhalt” des Gesagten zu verstehen, sondern das Verständnis muß auch signalisiert werden. In freier Interaktion sind die Signale, mit denen solch ein Verständnis sichergestellt wird (wie z.B. ein kurzes Kopfnicken, ein fragender Blick) viel flexibler als wir das bisher in Systemen wie Siri kennen. Ebenfalls beruht ein Verständnis des Gesagten oft auf einem Verständnis des nicht Gesagten, sondern nur Vorausgesetzten. Die Beschreibung dieses Hintergrundwissens und die Erkennung von Situationen ist ein anderer Schwerpunkt unserer Arbeiten.

Ist die Computerlinguistik Ihrer Ansicht nach in erster Linie eine geisteswissenschaftliche oder eine informatische Disziplin?

Sie sitzt auf der Grenze zwischen beidem, was sie gerade so spannend macht. Man muß sicherlich ein Gefühl für und Interesse an Sprache mitbringen, aber auch ein sehr gutes Verständnis mathematischer und technischer Methoden.

Wie funktioniert die intelligente Verarbeitung sprachlicher Daten?

Ganz grob gesprochen muß die Bedeutung der sprachlichen Daten erfasst und so repräsentiert werden, dass die gewünschten Fragen (“Was ist passiert?” bei der Verarbeitung von Zeitungstexten, “wie soll ich antworten?” in Dialogsystemen) beantwortet werden können. Dazu gibt es eine Vielzahl von Methoden, von der Abarbeitung von Regeln hin zu dem “Trainieren” von Computersystemen durch die Präsentation einer großen Menge von Daten mit den gewünschten Antworten. In kommerziellen Systemen wird ein Mischung aus diesen Methoden eingesetzt.

Wo liegen aktuell die Grenzen beim Einsatz sprachbasierter Technologie?

Sprache ist immer mehrdeutig. “Es ist kalt” kann eine Feststellung über das Wetter sein, oder eine über die Temperatur eines Gegenstandes, oder die Aufforderung, die Heizung anzuschalten. Um zu erkennen, welches davon in einer konkreten Situation das Gemeinte ist, muß man eben diese gesamte Situation erkennen. Das können aktuelle Systeme nicht. Diese müssen sich immer in eng gesteckten Grenzen bewegen (ein Kommando, eine Frage).

In Anlehnung an die Klasse von “harten” Problem in der Informatik, die “NP-vollständig” genannt werden, wird die wirklich tiefe Verarbeitung von Sprache auch “KI-vollständig” genannt – um sie zu erreichen, muß die Gesamtheit der menschlichen Intelligenz modelliert werden, es muß also eine künstliche Intelligen (KI) geschaffen werden. Davon sind wir noch weit entfernt.

Computer in klassischen Science-Fiction-Filmen wie „Raumschiff Enterprise“ sprechen schon lange mit ihren Nutzern. Wie weit sind wir Ihrer Ansicht nach von diesem Ziel entfernt?

In Science-Fiction-Filmen klingen sprechende Computer wie Blechkisten, aber sie verstehen kleinste Anspielungen und geben intelligente, hilfsbereite Antworten. In der Realität klingen sprechende Computer fast perfekt, aber was sie sagen, passt oft nicht. Um zu einer wirklich freien Interaktion zu kommen, müssen Computer die gesamte menschliche Lebenswelt verstehen. Davon sind wir noch weit entfernt.

Welche Rolle spielt Apples Siri in dieser Entwicklung?

Siri hat es mir jedenfalls sehr viel leichter gemacht auf Parties zu erklären, was ich mache! Früher musste ich immer mühsam beschreiben, was Sprachdialogsysteme sind, heute haben die meisten solche Systeme zumindest schon einmal ausprobiert.

Für die Industrie und das Forschungsfeld war die Einführung von Siri ein wichtiges Ereignis. Nach einer langen, eher ruhigen Zeit ist Sprachtechnologie für viele Firmen jetzt zu einer Priorität geworden. Das ist gut für unsere Studierende und Doktoranden, weil sie gut bezahlte Positionen außerhalb der Unis finden, und gut für das Forschungsfeld, weil gute Ideen zurückfließen.

(Diese Diskussion ist allerdings komplexer: Mit den Gehältern, die Google, Apple, Microsoft etc. zahlen können, können öffentliche Institutionen nicht konkurrieren. Momentan scheinen die Unternehmen es noch als vorteilhaft zu betrachten, ihre Ergebnisse zu teilen. Das muß nicht so bleiben.)

Wie wichtig sind populäre Systeme wie Siri für die Entwicklung Ihres Forschungsbereichs?

Siehe oben. Sie sind wichtig für die Sichtbarkeit des Bereiches. Unsere Fragen an Universitäten müssen aber grundlegenderer Natur sein als nur die, wie man möglichst reibungslos ein einzelnes Informationsbedürfnis am Handy bedienen kann.

Die Akzeptanz sprachgesteuerter Systeme ist noch nicht allzu hoch. Zwar geben 98 Prozent aller iOS-Nutzer an, Siri bereits mindestens einmal ausprobiert zu haben, nur 3 Prozent sprechen jedoch in der Öffentlichkeit mit ihr. Warum diese Zurückhaltung?

Mit Siri führt man ja keine Unterhaltungen, sondern will einzelne Informationsbedürfnisse befriedigt haben. Diese anderen zu offenbaren ist vielleicht ein wenig peinlich. Dazu kommt, dass immer noch zu viele Interaktionen nicht erfolgreich sind und man sich bei mehrfacher Wiederholung in der Öffentlichkeit vielleicht etwas blöd vorkommt. Wenn man allerdings sieht, mit welcher Freude manche Leute in öffentlichen Verkehrsmitteln intime Telephongespräche führen, kann es vielleicht sein, dass man bald auch mehr Menschen solche Systeme benutzen sieht.

Wann werden sprachgesteuerte Systeme endgültig in der Mitte der Gesellschafft angekommen sein?

Wenn sie einen echten Mehrwert bieten. Die Schwachstelle ist inzwischen nicht mehr so sehr das Verstehen einfacher Befehle, sondern die Intelligenz hinter den Antworten. Einem menschlichen Assistenten würde eine Managerin ja auch nicht sagen “Lies mir meine emails vor”, sondern sie würde sagen “Beantworte Du diese mails.”

Wie wichtig ist die Gestaltung der Oberfläche für die Akzeptanz einer Sprachsoftware?

Interessante Frage. Es muß natürlich entdeckbar sein, dass die Möglichkeit der Verwendung von natürlicher Sprache vorhanden ist. In gewisser Weise ist die “Oberfläche” eines Systems wie Siri aber seine “Persönlichkeit”, die durch die Antworten transportiert wird. Hier hat Apple sehr Interessantes geleistet und eine klar positionierte Persönlichkeit geschaffen.

Ist es so, dass die Hemmschwelle, mit einem Computer zu sprechen fällt, sobald die Anzahl erkennbarer Interfaces verringert wird? Viele meiner US-amerikanischen Bekannten scheinen keine Probleme zu haben, mit Amazons „Alexa“ zu plaudern – Siri anzusprechen scheint vielen hingegen außerhalb des Autos nicht sonderlich attraktiv …

Naja, mit Alexa wird ja auch nur innerhalb der eigenen Wohnung geredet, also ohne Publikum. Amazon hat da eine Nische gefunden (Steuerung von Smart Home-Geräten; Fakten-Fragen), die Apple offen gelassen hat.

Wie sehen Sie in diesem Zusammenhang Apples Vorstoß, Siri nun auch auf dem Mac einzusetzen – also auf einem „echten“ Computer? Ist Sprache überhaupt die richtige Eingabeform für ein primäres Arbeitsgerät?

Wenn es nur für die Eingabe von etwas genutzt wird, dass ich auch auf andere Weise hätte eingeben können, ist der Nutzen sicherlich beschränkt. Sobald ich aber sagen kann “Was stand nochmal in dem Bericht von dem Müller von vor zwei Wochen?”, wird sich auch das Arbeiten mit dem “echten” Computer verändern. Davon sind wir, wie gesagt, noch weit entfernt, aber man muß ja mit dem ersten Schritt anfangen.

Was sind die größten Tücken für Sprachwissenschaftler bei der Simulation natürlicher Sprache auf einem Computer?

Siehe oben: Die natürliche Sprachverwendungssituation ist nicht, im Dunkeln zu telefonieren (also nur mit Sprache zu kommunizieren, wie man es mit Siri macht), sondern in einer von allen verstandenen Situation zu interagieren. Neben der Beschreibung der komplexen sprachlichen Strukturen muß also auch die Beschreibung der Situationen angegangen werden.

Bisher kann Siri zwar einen Termin eintragen und sich eine E-Mail diktieren lassen, zu einem kleinen Plauderstündchen über die aktuellen Ereignisse in der Welt reicht es jedoch nicht nicht. An was fehlt es?

Siehe oben: Verständnis der Situation, Verständnis der menschlichen Lebenswelt. Flexibilität und Geschwindigkeit im Verhalten.

Wie zufrieden sind Sie eigentlich mit der Entwicklung von Siri, seit das System 2011 das Licht der Welt erblickte? Und wo enttäuscht es Sie?

Ich benutze Siri häufig, aber dies auch erst, seitdem ich es über die Apple Watch aufrufen kann. Ich bin immer noch beeindruckt davon, wie gut die Spracherkennung ist (also die Umsetzung der gesprochenen in geschriebene Sprache; hier gab es einen unfassbaren Qualitätssprung in den letzten 5 Jahren). Ich bin immer noch gelegentlich enttäuscht davon, dass das doch eigentlich richtig Erkannte dann nicht richtig umgesetzt wird.

Siri plaudert bisher am liebsten Englisch und weiß hier auch wesentlich mehr Dinge. Zum Beispiel die Ergebnisse der deutschen Fußballnationalmannschaft. Ist das eine reine Fleißfrage seitens Apple oder eignen sich einige Sprachen besser für die Verarbeitung durch den Computer?

Reine Fleißfrage. Alle Sprachen sind von ähnlicher Komplexität – wenn ein Bereich der Grammatik in der einen Sprache einfacher aussieht, ist ein anderer dafür komplexer.

Apple pflegt Siri scheinbar vornehmlich „per Hand“, während Googles Spracherkennung auf die Autovervollständigung seiner Suchmaschine zugreift – das zukunftssicherere Konzept?

Bei der Spracherkennung ausgerechnet verwenden beide sicherlich ähnliche Methoden. Man vermutet, dass Google im Bereich des maschinellen Lernens von Antwortstrategien z.B. einen Vorsprung hat, aber wie sich das auswirkt, ist schwer zu sagen. Auffällig ist sicherlich, dass von allen großen Firmen nur Apple sich nahezu komplett aus der akademischen Forschung raushält. Es kann durchaus sein, dass ihnen das noch einmal schaden wird, weil sie ihre eigenen Sachen nicht in der nötigen Geschwindigkeit verbessern können und ihre Leute nicht auf dem Stand der Kunst bleiben.

Siri gegen Google Now gegen Cortana: Wer hat Ihrer Ansicht nach die Nase vorn?

Einen wirklichen uneinholbaren Durchbruch hat von diesen bisher keiner gemacht. Zu Siri wurden schon länger keine auffälligeren neuen Features hinzugefügt, das erzeugt vielleicht den Eindruck, dass sich dort wenig tut.

Zum Schluss ein persönliche Frage: Wie sieht für Sie die Welt im Jahr 2036 aus – gerade in Bezug auf den Austausch mit Maschinen?

Computer werden sicherlich weiterhin die menschliche Intelligenz unterstützen und verstärken. Ich kann mir vorstellen, dass aus Mobiltelephonen “companions” geworden sind, die ihren Besitzer durch deren Leben begleiten und durch (aber immer noch begrenzte) Situationserkennung von selbst nützliche Informationen sich merken bzw. wiedergeben, wenn sie gebraucht wird. (“Du wolltest doch die Tasche mitnehmen”, wenn man aus dem Haus geht, z.B., oder “Dein Frühstück hatte 400 kCal, nimm jetzt ruhig den Burger.”.)

Ich kann mir vorstellen, dass die Arbeit mit Computern eher eine Zusammenarbeit werden wird, bei der man komplexere Anweisungen geben kann. “Was ist denn die Meinung von Firma X?” und nicht “Öffne Dokument `Report.pdf’”.

Wahrscheinlich wird es Haus-Roboter geben, die Hausarbeiten machen können wie z.B. den Tisch abdecken oder die Wäsche sammeln, aufhängen und falten. (Etwas, das heutzutage noch weit jenseits der Möglichkeiten von Robotern ist.) Ich würde aber vermuten, dass diese Geräte das eher still machen und es ein Zeichen ihrer Intelligenz sein wird, dass man mit ihnen nicht sprechen muß, sondern sie einfach funktionieren, und man sie auch nicht Roboter nennen wird. (Wie man eine Spülmaschine nicht Abwaschroboter nennt.)

Ich gehe jedenfalls nicht davon aus, dass es bis dahin superintelligente Roboter gibt, für die wir störende Einfallspinsel sind, wie es sich manche Schreckensszenarien ausdenken.

Vielen Dank für Ihre Zeit!

Gerne. Sehr interessante Fragen!