
©Apple

Auf der Keynote zum iPhone 4S hatte Apple mehrmals betont, dass sich Siri noch in der Betaphase befindet. Gearbeitet wird an der Unterstützung weiterer Sprachen wie Spanisch oder Chinesisch ebenso wie an den neuen Funktionen für die bereits vorhandenen Sprachen. So weist Siri im Deutschen einige Defizite bei der direkten Spracherkennung einzelner Wörter oder bei den grammatischen Regeln für komplexere Phrasen auf. Siri scheitert noch an deutschen Verben mit trennbaren Präfixen oder an der Satzklammerkonstruktion. Aus dem Befehl “Erinnere mich daran, dass ich bei der Post ein Päckchen abholen muss” macht Siri lediglich eine Erinnerung wie “Ich bei der Post ein Päckchen abholen muss”.
Ausbaufähig ist auch das Zusammenspiel zwischen verschiedenen Applikationen, in die Siri integriert ist: Obwohl im Terminkalender am 10. Dezember ein ganztägiger Termin in San Francisco steht, liefert Siri auf die Frage “Brauche ich am 10. Dezember einen Regenschirm?” die Wettervorhersage für den aktuellen Standort (in unserem Test für München) und nicht korrekterweise für San Francisco.
Statistisches Verfahren zur Spracherkennung
Apples persönlicher Assistent ist ein komplexes Konstrukt aus diversen Datenbanken und Software-Modulen zu Spracherkennung und -verstehen, Dialogsteuerung, Sprachgenerierung, Sprachsynthese und Audio-Ausgabe.
Moderne Spracherkennungssoftware, beispielsweise Dragon Dictation von Nuance, basiert auf einem statistischen Verfahren zur Auswertung einer (sprachlichen) Einheit, wobei man das Merkmalsmuster der fraglichen Einheit mit einer Reihe der gespeicherten Referenzmuster vergleicht. Je größer die Referenzdaten-bank ist, desto genauer sind die Ergebnisse. Für Apples Sprachassistenz bedeutet dies konkret, je öfter Anwender diese Funktion nutzen, desto genauere Antworten auf ihre Fragen bekommen sie. Bei solchen statistischen Verfahren ( Hidden Markov Model ) ist vollkommen irrelevant, welche Größenordnung die gesuchte Einheit hat. Der gleiche Algorithmus wird zur Erkennung einzelner Phoneme, Wörter oder ganzer Wortphrasen genutzt. Die zahlreichen Anwender fungieren hier als Lehrer, das heißt, dass Siri mit der Zeit immer besser Anwender mit Akzent oder Dialektausdrücke versteht, und dass die Software anhand von schematischen Grammatikmodellen für einzelne Sprachen die Satzstrukturen besser erkennt.
Von der grafischen zur natürlichsprachlichen Schnittstelle
Was Siri von anderen Sprachsteuerungen wie Microsofts “Tell Me” oder Googles “Voice Search” unterscheidet, ist ihre fast menschliche Intelligenz. Siri versteht nicht nur konkrete Stichwörter wie “Wettervorhersage, 2. Januar, München” sondern auch abstrakte Begriffe wie “Regenschirm”. Grund dafür ist eine ausgereifte Dialogsteuerung, die dem Nutzer den Zugriff auf mehrere unterschiedliche Anwendungen gleichzeitig erlaubt. Dabei wertet ein Dialogmanager konkrete Angaben aus und weist sie einer bestimmten Anwendung zu.
Die Aussage im Kontext verstehen
Bis jetzt meistert Siri gleichlautende oder ähnliche Adressbuchangaben, indem sie die Listen von Adressen oder Telefonnummern zu einem Kontakt vorschlägt. Wenn der Nutzer seine Anfrage nicht konkret genug formuliert, kann ein solcher Dialogmanager auf alle bisherigen Nutzerhandlungen zugreifen, um passende Muster zu erkennen, oder Kontextinformationen bei allen Anwendungen zu sammeln.
Beispielsweise antwortet Siri auf die Äußerung “Ich habe Hunger” oder “Ich habe Durst” mit der Floskel “Wer hätte das gedacht”. Denkbar aber wäre, dass Siri bei solchen Aussagen entweder eine Auswahl lokaler Gaststätten oder die Rezeptsuche im Web anbietet.
Diese Kontextanalyse wird dann wirklich wichtig, wenn die externen App-Entwickler Zugang zu Siris Funktionalität erhalten. Für Entwickler bedeutet dies, dass sie für Apples Sprachsteuerung eigene Dialogmodelle, dazu eine Aktionsplanung für die Konversation mit dem Nutzer sowie eine Anbindung an die entsprechende Datenbank bereitstellen müssen. Apple muss seinerseits für die nahtlose Integration in das eigene Dialogsystem sorgen. Dass dies erfolgreich funktionieren kann, zeigt das Beispiel des App Store.
Je mehr sprachgesteuerte Anwendungen auf dem Markt sind, desto intuitiver und natürlicher wird die Bedienung des iPhone. Die sprachnatürliche Benutzerschnittstelle ( Conversational User Interface ) ist eine nächste Stufe in der Entwicklung der Interaktion zwischen dem Nutzer und Computer. In einem ersten Schritt hatte die grafische Benutzeroberfläche ( Graphical User Interface ) die ungeschulte Anwendung möglich gemacht, der Anwender musste keine Kommandozeilenbefehle mehr lernen, um seinen Mac zu steuern. Sprachgesteuerte Benutzerschnittstellen wie Siri erschließen neue Anwendungssituationen etwa beim Sport oder Autofahren oder neue Anwendergruppen wie blinde oder sehbehinderte Menschen.
Multimodale Steuerung

Siri wird sehr häufig zum Diktieren genutzt. Der damit diktierte Text lässt sich nur eingeschränkt bearbeiten. Siri versteht die gängigen Zeichen wie “Punkt”, “Fragezeichen” und “neue Zeile”, eine aufwendige Formatierung ist mit Spracheingabe aber nicht möglich. Damit solche Anwendungen komfortabler funktionieren, müssen sich unterschiedliche Steuerungselemente wie Eingaben über Touchscreen oder Tastatur kombinieren lassen.
Der Trick dabei ist, die Eingaben aus beiden Quellen richtig einzuordnen und anschließend zu interpretieren. Apple bedient sich dabei einer einfachen Methode: Alle Nutzereingaben, egal ob über Sprachsteuerung oder Touchscreen, bekommen einen Zeitstempel, Time Stamp, der die Eingaben in einen Zeitstrahl einordnet. So wird es möglich, dass auf dem iPhone während des Diktats auch eine Tastatur eingeblendet ist, damit der Nutzer eigene Eingaben in Echtzeit formatieren kann.
Solch multimodale Steuerung kann man in anderen Bereichen gut einsetzen. Interessant ist die Kombination von iPhone und Siri als eine intelligente Fernbedienung für einen künftigen Apple-Fernseher. Dank Sprachsteuerung gestaltet sich der Dialog mit dem Mediamanager intuitiv und natürlich. Eine zusätzliche Option für die direkte Auswahl zwischen mehreren Optionen, beispielsweise mehreren Liedern eines Künstlers oder unterschiedlichen Folgen einer Serie, erspart unnötige Rückfragen.