1377883

Trends 2012: Siri lernt weiter

13.01.2012 | 09:35 Uhr |

Eines der Verkaufsargumente für das neue iPhone 4S ist die smarte Sprachassistentin Siri. Seit Oktober häufen sich im Netz witzige Siri-Dialoge und Einsatzversuche für andere Aufgaben, wie Siri Proxy

features_siri_help
Vergrößern features_siri_help
© Apple

Auf der Keynote zum iPhone 4S hatte Apple mehrmals betont, dass sich Siri noch in der Betaphase befindet. Gearbeitet wird an der Unterstützung weiterer Sprachen wie Spanisch oder Chinesisch ebenso wie an den neuen Funktionen für die bereits vorhandenen Sprachen. So weist Siri im Deutschen einige Defizite bei der direkten Spracherkennung einzelner Wörter oder bei den grammatischen Regeln für komplexere Phrasen auf. Siri scheitert noch an deutschen Verben mit trennbaren Präfixen oder an der Satzklammerkonstruktion. Aus dem Befehl "Erinnere mich daran, dass ich bei der Post ein Päckchen abholen muss" macht Siri lediglich eine Erinnerung wie "Ich bei der Post ein Päckchen abholen muss".

Ausbaufähig ist auch das Zusammenspiel zwischen verschiedenen Applikationen, in die Siri integriert ist: Obwohl im Terminkalender am 10. Dezember ein ganztägiger Termin in San Francisco steht, liefert Siri auf die Frage "Brauche ich am 10. Dezember einen Regenschirm?" die Wettervorhersage für den aktuellen Standort (in unserem Test für München) und nicht korrekterweise für San Francisco.

Statistisches Verfahren zur Spracherkennung

Apples persönlicher Assistent ist ein komplexes Konstrukt aus diversen Datenbanken und Software-Modulen zu Spracherkennung und -verstehen, Dialogsteuerung, Sprachgenerierung, Sprachsynthese und Audio-Ausgabe.

Moderne Spracherkennungssoftware, beispielsweise Dragon Dictation von Nuance, basiert auf einem statistischen Verfahren zur Auswertung einer (sprachlichen) Einheit, wobei man das Merkmalsmuster der fraglichen Einheit mit einer Reihe der gespeicherten Referenzmuster vergleicht. Je größer die Referenzdaten-bank ist, desto genauer sind die Ergebnisse. Für Apples Sprachassistenz bedeutet dies konkret, je öfter Anwender diese Funktion nutzen, desto genauere Antworten auf ihre Fragen bekommen sie. Bei solchen statistischen Verfahren ( Hidden Markov Model ) ist vollkommen irrelevant, welche Größenordnung die gesuchte Einheit hat. Der gleiche Algorithmus wird zur Erkennung einzelner Phoneme, Wörter oder ganzer Wortphrasen genutzt. Die zahlreichen Anwender fungieren hier als Lehrer, das heißt, dass Siri mit der Zeit immer besser Anwender mit Akzent oder Dialektausdrücke versteht, und dass die Software anhand von schematischen Grammatikmodellen für einzelne Sprachen die Satzstrukturen besser erkennt.

Von der grafischen zur natürlichsprachlichen Schnittstelle

Was Siri von anderen Sprachsteuerungen wie Microsofts "Tell Me" oder Googles "Voice Search" unterscheidet, ist ihre fast menschliche Intelligenz. Siri versteht nicht nur konkrete Stichwörter wie "Wettervorhersage, 2. Januar, München" sondern auch abstrakte Begriffe wie "Regenschirm". Grund dafür ist eine ausgereifte Dialogsteuerung, die dem Nutzer den Zugriff auf mehrere unterschiedliche Anwendungen gleichzeitig erlaubt. Dabei wertet ein Dialogmanager konkrete Angaben aus und weist sie einer bestimmten Anwendung zu.

0 Kommentare zu diesem Artikel
1377883