Keine Tastatur, keine Knöpfe, keine Maus – in einer fernen Zukunft, so die Vision, sollen wir die Maschinen um uns herum mit unserer Stimme steuern. Und diese Zukunft ist vielleicht näher, als wir glauben. Smartphones, Autos und PCs lassen sich schon heute immer stärker mit der Stimme steuern. Und Apples neues iPhone macht mit dem System „Siri“ Schlagzeilen: das soll über reine Sprachsteuerung weit hinausgehen, und dem ganz natürlichen Sprechen mit der Maschine einen großen Schritt näher kommen. So soll es möglich sein, Fragen an das iPhone zu stellen, und mit Siri zu interagieren.
Was kann die Sprachsteuerung also heute schon? Und wo geht die Reise hin? Marcus Engert hat mit Maschinen und Wissenschaftlern gesprochen.
Hörbeispiel: Guten Morgen – „Ich wünsch dir einen guten Morgen“ – Erinnere mich heute Mittag an mein Zugticket – „Okay, ich erinnere dich“ – Regnets morgen? – „Es sieht nicht nach Regen aus morgen“.
So klingt SIRI, das neue Spracherkennungssystem auf dem iPhone. Und man merkt deutlich, in welche Richtung das gehen soll. Anders als viele Sprachsteuerungen bisher soll der Nutzer sich mit SIRI unterhalten können. Ganz natürlich. SIRI soll Zusammenhänge verstehen: Wenn man fragt „Gibt es einen guten Italiener in Laufnähe“ soll, falls die Antwort „Nein“ lautet, die Nachfrage „Und was ist einem Mexikaner?“ möglich sein. SIRI soll aus dem Kontext heraus diese neue Anfrage nach einem Restaurant interpretieren können. Auch Googles System „Voice Actions“ bietet schon länger eine umfassende Sprachsteuerung – wie hier zu hören in einem Android-Handy.
Hörbeispiel: Hallo, Galaxy! – Was möchten Sie tun? – Spiele Musik. Kate Bush, Running up that hill. (Musik läuft an)
Das neue an Siri ist seine Herkunft: es entstammt einem militärischen Forschungsprojekt zu künstlicher Intelligenz. Es soll Kontexte verstehen können. Und greift dazu im Hintergrund auf große Wissensdatenbanken wie Wolfram Alpha zurück. Siri versteht zwar nicht immer, ist aber lernfähig. Leider funktioniert das zumindest auf Deutsch noch nicht ganz reibungslos. Meistens versteht Siri einfach nicht, was gesagt wurde. Und antwortet mit komischer und humorvoller Verwirrung. Das ist anfangs witzig und reizvoll, wird nach einiger Zeit aber langweilig – Siri verwandelt sich von einer Freundin wieder in einen schnöden Assistenten zurück. Woher kommt also dieser Hype?
Es ist die Schnittstelle, es ist nicht die Spracherkennung selber. Die Aktivierung von Siri erscheint den Leuten einfach und natürlich. Und das sind wirklich kleine Unterschiede, die man in der Software-Ergonomie kennt. Geringfügig andere Funktionalität bringt den Erfolg des Produktes im Verhältnis zu einer anderen Software. Die Leute sagen: „Acht, ein Knopf gedrückt.“ Oder eine Einstellung wie „ans Ohr halten – und schon gehts los“, versus eine Applikation starten. Und dafür lieben es die Leute.
Aber das hat es immer schon gegeben: den sogenannten Eliza-Effekt. Es gab ein ganz frühes K.I.-System (K.I. wie künstliche Intelligenz) und da wurde ein Psychiater modelliert. Und viele Leute fanden das System fast besser als den menschlichen Psychiater – und sie wollten es weiterbenutzen, auch nachdem man ihnen erzählt hatte, dass es nur ein System ist. Ich glaube, es ist so ein bisschen ein Tamagotchi-Effekt: man kann auch sich Objekten sehr verbunden fühlen.
… sagt Karin Harbusch, Professorin für Computerlinguistik und künstliche Intelligenz der Uni Koblenz. Zwar hat schon Windows im April 2009 eine Sprachsteuerung in Handys verpflanzt, Apple dann ein halbes Jahr später im iPhone, gefolgt von Googles „Voice Actions“ für Android-Geräte. Und auch andere Geräte wie Autos oder Navigationssysteme können mit Stimme gesteuert werden. Nachrichten schreiben, das Wetter abfragen, den Wecker stellen – solche einzelnen Funktionen sind längst per Sprachbedienung machbar. Programme wie „Dragon Dictation“ können auf den heimischen Rechner gespielt werden. Danach kann man dem Computer sagen, was er tun soll.
Jedoch sind dies alles keine Systeme, die aus dem Kontext heraus reagieren können. Das kann Siri eindeutig besser, als jedes andere System bisher. Und das zeigt den Paradigmenwechsel in der Sprachsteuerung. Bisher musste der Nutzer fest definierte Vokabeln auswendig lernen – oder anders: das Gerät gab die Syntax vor. Und das ist ein Problem, sagt Karin Harbusch.
Die Maschine muss uns verstehen, ganz klar. Die Schnittstelle muss dem Menschen gemäß gestaltet werden. Und gerade die menschliche Sprache ist da prädestiniert dafür, dass wir uns da ganz natürlich verstanden wissen wollen. Da muss die Maschine kommen.
Nun aber soll es, wie im Falle von Siri, möglich werden, frank und frei zu sprechen. Klingt einfacher, als es ist: Denn eine ganze Generation hat es nicht richtig gelernt, mit Maschinen zu sprechen. Geraten sie zum Beispiel an eine Hotline, sprechen sie gekünstelt, besonders deutlich und abgehackt.
Das ist ein Problem. Das hat sich jetzt in einer bestimmten Generation festgebrannt, dass man die Maschine dazu benutzen kann, bestimmte Sachen per Sprache einzugeben und ausführen zu lassen, wenn man sich nur mit der Sprache an die Maschine anpasst.
…sagt Tim Polzehl von den Telekom Innovations Labs an der TU Berlin. Dabei wäre es viel spannender, wenn wir uns ganz natürlich geben könnten. Tim Polzehl arbeitet genau daran. Die Maschine soll an der Art, wie wir sprechen, unsere Laune, Alter oder Persönlichkeit erkennen. So könnte man zum Beispiel im Callcenter einer Hotline bestimmte Menschen zielgerichteter an Mitarbeiter durchstellen.
Ich denke allerdings, das ist nicht der primäre Anwendungsfall. Es ist eher so zu sehen, dass, wann immer Sie mit Ihrem Handy oder Ihrem Computer oder Ihrem Fernseher in Zukunft sprechen, der Anwendungsfall ist, dass dieses Gerät Sie möglichst gut erkennen kann.
Das allerdings wird heute und morgen nicht der Fall sein. Zu skeptisch ist der Mensch, zu unvollkommen die Maschine. Das zeigen auch Versuche, die Sprachsteuerung in unsere normale Alltagswelt zu bekommen.
Ich träume vom sprechenden Auto, vom sprechenden Haus… Aber Untersuchungen mit dem Hotelzimmer der Zukunft zeigen: man kommt in das Zimmer, es gibt keinen Fernseher, kein Telefon, es ist gar nichts da – die Leute waren sehr irritiert und haben die Fernbedienung gesucht. Aber in Wirklichkeit sollten sie nur sagen «Fernsehen an!» – und dann wäre der Fernseher aus dem Nichts, aus der Decke gekommen und hätte gespielt. Wir denken manchmal an die Wunderanwendungen gar nicht.
So geht es den Laien im Moment, wenn sie mit der Maschine sprechen sollen. Man ist irritiert, verwirrt, findet es ungewohnt und sich nicht zurecht. Bleibt also noch ein wenig Zeit für die Wissenschaft, zwei der größten Probleme, vor denen sich Sprachsteuerung und Spracherkennung im Moment sieht, zu lösen. Da wäre zum einen der Zugang zu Weltwissen.
Das ist de Hoffnung: dass wir alles im Netz finden, und dass sich daraus auch Weltwissen bei der Maschine bilden kann. Im einfachsten Fall sind das erstmal Ontologien, Netze von Ober- und Unterbegriffen. Aber wir haben wirklich ganz viel Weltwissen: ein dreibeiniger Elefant, also einer der einen Unfall hatte, ist noch ein Elefant. Ein dreibeiniger Stuhl, dem ein Bein abbricht, ist ja kein Stuhl mehr. Woher wissen wir das?
Für den Rechner sind ganz viele Schlüsse gleich wahrscheinlich. Es gibt immer wieder überraschende Durchbrüche, aber so ein Wunschtraum wie: „Die Maschine, der zeigt man zehn Jahre lang alle Zeitungsbeiträge und alle Bücher und irgendwann kann man sich mit ihr unterhalten.“ – das hat so nicht geklappt. Ein Beispiel aus der Domäne ist: das System hat gesagt, vor dem 18. Jahrhundert waren alle Menschen ganz besonders. Woran lag das? Es gibt ja nur Biographien berühmter Leute. Während man heute sehr viele Beiträge findet. Und das System hat schon messerscharf geschlossen – aber das ist ja nicht das, was wir wissen.
Dieses Problem natürlich war noch vor zwanzig Jahren fast unlösbar. Heute, wo das Internet überall ist und damit auch unendliche Wissens-Ressourcen überall sind, sieht das schon anders aus. Man muss, was scher genug ist, der Maschine nur noch beibringen, wie sie suchen soll. Die zweite große Hürde aber ist nicht weniger schwer: es geht um das bloße Verstehen. Etliche Bereiche unserer Sprache verstehen schon wir Menschen oft nicht: Ironie und Humor zum Beispiel. Und davon ist auch Apples Siri noch weit entfernt.
Also wir sind froh, wenn wir – so wie jetzt auch bei Siri – den Befehl aus dem gesprochenen Sprachstrom herausfiltern können. Es gibt ja dort so Beispiele: „Wenn es regnet, trag den Termin nicht ein.“ Das schafft ja SIRI nicht, Bedingungen zu verstehen, unter denen ein Befehl ausgeführt wird. Das ist ja noch sehr weit weg von Ironie oder einem Witz. Und möchten Sie, dass Ihr Rechner über Sie lacht? (lacht)