Von Halyna Kubiv - 16.01.2013, 09:54

Sprachtools

Apple-Trends 2013: Siri

Seit der Vorstellung des intelligenten persönlichen Assistenten auf dem iPhone ist mehr als ein Jahr vergangen. Doch immer noch führt Apple Siri als Beta-Version. Wohin sich der iPhone-Assistent entwickeln kann und was er für die Bezeichnung „Release-Version“ braucht, haben wir versucht aufzuzeichnen.
Gleich nach der Vorstellung von Siri hatten viele Mac-Blogger Apples Assistenten mit der künstlichen Intelligenz aus Stanley Kubricks „Odyssee 2001“ Hal 9000 verglichen. Zu nah war die Assoziation: Der Mensch kommuniziert mit der Maschine ohne Tastatur und Maus und diese Maschine versteht die Anfragen, dazu liefert sie die passenden Antworten. Die Verantwortlichen bei Apple hatten aber alles Mögliche getan, damit ihre Kreation nicht so unheimlich bei den Nutzern ankommt wie deren Counterpart im Film. Die standardmäßige weibliche Computerstimme ist angenehm, dazu bringt Siri eine ordentliche Portion Humor mit. Die Idee eines persönlichen Assistenten ist weder neu, noch ist sie nur im Bereich der Science-Fiction-Literatur angesiedelt. Microsoft scheiterte beispielsweise mit seinem Clippy, der immer wieder in den Word- oder Excel-Dokumenten aufpoppte und Offensichtliches behauptete: „Sie wollen jetzt anscheinend einen Brief schreiben“. Apple selbst hatte in den 80er Jahren eine ähnliche Vision – John Sculley stellte auf der EDUCON 87 mit „Knowledge Navigator“ einen intelligenten Assistenten für den Bildungsbereich vor. Doch damals entwickelte sich das Projekt nur bis zu einem Konzeptvideo.

Nur der Anfang

Apple ist mit Siri das gelungen, woran die Vorgänger immer wieder scheiterten. Der Assistent ist bei den Nutzern angekommen und wird für Alltagsaufgaben wie Erinnerungen, Mails und Wetterabfragen angewendet. Noch ist Siri nicht so intelligent wie der „Knowledge Navigator“. In der ersten Version (iOS 5) beschränkte sich die Anwendung auf Apple-eigene Apps wie Nachrichten, Mail, Telefon und Musik sowie einige wenige externe Dienste wie Wetter und Börse. Mit iOS 6 sind die zusätzlichen Dienste für Filme, Restaurants oder Sportergebnisse dazugekommen. Diese Beschränkung ist technischer Natur: Der persönliche Assistent von Apple versteht eine Anfrage des Nutzers nicht als Gesamtkonstruktion, also als Satz, sondern filtert bestimmte Wörter heraus, die in einen der verfügbaren Anwendungsbereiche passen und entsprechende Antworten beziehungsweise Handlungen liefert. Eine ältere Variante eines solchen Dialogsystems kann man immer noch bei den Anrufassistenten diverser Service-Hotlines finden. Der Assistent listet mehrere Menümöglichkeiten auf, der Nutzer muss eine Variante davon nennen, dann gelangt er zu dem gewünschten Untermenü. Folgendes Defizit von Siri kann man beim Vergleich der deutschen und der englischen Version des Assistenten beobachten: Fragt man die englische Siri-Version nach dem Autoren des Romans über den weißen Wal, liefert die Wissensdatenbank Wolfram Alpha die richtige Antwort „Herman Melville“. Die deutsche Version bietet nur eine Standardantwort an: „Soll ich im Internet danach suchen?“ Für Apple ist es an sich kein Problem, auch andere Sprachvarianten von Siri an Wolfram Alpha anzubinden, doch die smarte Wissensdatenbank gibt es leider nur in Englisch. Anfragen in anderen Sprachen kann Wolfram Alpha nicht bearbeiten.

Verstehen im Kontext

Die Mehrdeutigkeit der Wörter ist selbst für die zwischenmenschliche Kommunikation manchmal eine Hürde. Sogar eine alltägliche Formulierung kann Probleme bereiten: „Bring mir bitte den blauen Kugelschreiber. Er liegt auf dem Tisch“. Steht der Empfänger dieser Anfrage vor einem Tisch voller blauer Kugelschreiber, merkt er, dass in der Kommunikation etwas schiefgelaufen ist. Der Fragesteller hat einen bestimmten Kugelschreiber gemeint, welchen genau, hat er nicht näher spezifiziert. In den meisten Alltagssituationen wird eine derartige Mehrdeutigkeit durch die vorangegangene Kommunikation oder konkrete Umstände aufgelöst: Der Fragesteller hat vielleicht  von einem Lieblingskugelschreiber erzählt, den ihm seine Mutter vor Jahren geschenkt hat, in einem wunderbaren Himmelsblau und mit einer Gravierung. Oder es geht noch einfacher, indem der Fragesteller auf einen konkreten Kugelschreiber zeigt. Solche nicht spezifizierte Ausdrucksweise ist in der Alltagskommunikation durchaus typisch („Schau hin“, „Nimm das“).
Damit Siri diese schwammigen Aussagen versteht und richtig interpretiert, setzt Apple auf den breiten Kontext, den man beim Entziffern solcher Aussagen zu Rate ziehen kann. Damit sind beispielsweise vorhergegangene Nutzeranfragen oder Daten aus  externen Datenbanken gemeint. Im Idealfall kann der intelligente persönliche Assistent nach dem Hinweis „Rufe Peter an“ den richtigen Peter im Freundeskreis aus der Adressbuchliste auswählen, weil alle anderen Einträge mit dem Namen „Peter“ nur Geschäftskontakte sind und der Nutzer bis jetzt mit ihnen nur per Mail kommuniziert hat. iOS bietet schon jetzt die Möglichkeit, Begriffe wie Mutter, Bruder oder Vater für Siri verständlich zu machen. Dazu muss man sie manuell im Adressbuch nachtragen. Ein breiter Kontext bedeutet nicht nur eine eigene Nutzungsgeschichte, sondern auch  Daten aus anderen Datenbanken. So ist es vorstellbar, dass Siri auch deutlich komplexere Aufgaben bewältigen könnte: „Buche für die Geburtstagsfeier meiner Schwester einen Tisch für 6 Personen um acht Uhr abends in einem preiswerten Restaurant mit mediterraner Küche und schick ihr und ihrem Ehemann eine Einladung dazu“. So eine Aufgabestellung ist nicht nur komplex, sondern auch unvollständig, doch durch die Kombination verfügbarer Daten könnte Siri die Aufgabe lösen. Aus dem Adressbuch weiß sie, wer  hinter der Bezeichnung „Meine Schwester“ und „Der Ehemann meiner Schwester“ steht. Im Kalender findet sich die Information zu dem genauen Tag der Buchung, nämlich dem Geburtstag der Schwester. Aus der Buchungsgeschichte bei Opentable könnte Siri nachvollziehen, welche Restaurantkategorie der Nutzer als preiswert erachtet. Die Restaurantsuche bei Yelp hätte eine riesige Liste von Restaurants ausgegeben, doch in der Anfrage sind bereits mehrere Filter vorhanden. Der lokale Filter zeigt nur die Restaurants in der Nähe der Wohnung des Nutzers oder seiner Schwester an, der Preisfilter schränkt die Suche auf Restaurants ein, bei denen ein Hauptgericht nicht über 15 Euro kostet, der Artfilter listet nur griechische und italienische Restaurants auf. Selbst in großen Städten dürfte sich eine solche Ergebnisliste in einem einstelligen Bereich befinden.

Siri etwas beibringen

Bei der Vorstellung des iPhone 4S hieß es, Siri lerne mit jedem Nutzer dazu. Das stimmt auch. Je größer die Datenbank der Spracheingaben, desto genauer funktioniert die Spracherkennung. Siri lernt nicht nur die Sprachgrundlagen. In einem Patent  stellt Apple eine Lösung für komplexere Siri-Aufgaben vor. Diese funktioniert nach dem Prinzip eines Macros in einem Word-Dokument oder eines Automator-Programms in OS X. Der Nutzer könnte demnach eine Aufzeichnung für die Abfolge bestimmter Kernaufgaben in der gewünschten Reihenfolge starten. Ist so eine Aufzeichnung beendet, lässt sie sich immer wieder für wiederholbare Aufgaben ausführen. So könnte ein guter Morgen mit Siri folgendermaßen aussehen: Wecke mich um 7 Uhr, stell das Licht im Bad heller und die Temperatur auf 20 Grad, starte um halb 8  die Kaffeemaschine, rufe gleich danach neue Mails ab, lies dann meine Twitter-Timeline vor und im Anschluss die neuesten Nachrichten auf Flipboard aus dem Bereich "Computer und Technologie".
Der Hardware-Teil dieser Abfolge (Beleuchtung, Heizung, Haushaltsgeräte mit Siri steuern) gehört noch der ferneren Zukunft an. Dafür müssten zwei Voraussetzungen erfüllt werden. Apple muss zum ein Siri-SDK für Dritthersteller-Apps freigeben, und die Gerätehersteller eine bezahlbare Fernsteueroption für ihre Erzeugnisse vorsehen. iPhone-gesteuerte Lampen sind zwar schon erhältlich, doch Produkte wie das von Philips sind mit rund 200 Euro noch zu teuer, um bei einem breiten Publikum anzukommen. Der Software-Teil der Abfolge (Wecker, Mail, Twitter, Flipboard) ist schneller realisierbar. Die Funktion zum Vorlesen von Text liefert Apple seit Jahren in seinen Geräten mit Voice Over. Wecker und Mail sind bereits mit Siri steuerbar, Twitter ist in iOS integriert. Das Vorlesen der Nachrichten auf Flipboard wäre nur über ein Siri-SDK möglich,  bis jetzt weigert sich Apple allerdings, dieses Tool an Entwickler weiterzugeben.

Siri steuert andere Apps

Die Frage nach Schnittstellen für Dritthersteller-Apps stellte sich gleich nach der Veröffentlichung des Dienstes 2011. Ein Jahr davor brachte Siri als eigenständige App aus dem iTunes Store über eigene Schnittstellen die Integration mit rund dreißig externen Webdiensten mit, darunter Rotten Tomatoes, Eventful, Citysearch, Bing oder Taximagic. Die Kooperation mit neuen Anbietern wie Yelp, IMDB oder diversen Autoherstellern zeigt, dass Apple schon Schnittstellen für diese Dienste implementiert hat. So wird beispielsweise der persönliche Assistent in die neuen Chevrolet-Modelle Spark und Sonic integriert. Für den Einsatz auf den Straßen ist Siri entsprechend modifiziert: Die Aktivierung erfolgt nicht mit der Betätigung des Homebuttons auf dem iPhone, sondern mit einem speziellen Knopf auf dem Lenkrad. Apple hat diesen „Eyes Free“-genannten Modus bereits patentiert. Zusätzlich für die Nutzung im Auto ist aus Sicherheitsgründen die Suche im Web deaktiviert.
Was Apple daran hindert, die Siri-Schnittstellen für alle Dritthersteller-Apps freizugeben, sind immer noch die Defizite bei der semantischen Erkennung der Spracheingabe. Während die Sprache-zu-Text-Erkennung fast einwandfrei funktioniert und Siri selbst schnell oder mit Akzent gesprochene Sätze problemlos in Text konvertiert, merkt man, dass der nächste Schritt – das Verstehen der Aussage – ziemlich oft scheitert. Nicht ohne Grund hat Apple seinem smarten Assistenten bei der Veröffentlichung nur wenige verfügbare Dienste spendiert. So sind etwa der Wortschatz und daraus resultierende Fragesätze zum aktuellen Wetterstand verhältnismäßig beschränkt, Siri-Entwickler können die gängigsten Varianten der Fragen abfangen und Siri gibt eine richtige Antwort darauf. Doch selbst bei Anfragen zum Wetter scheitert der Assistent, wenn man ein überraschendes Kompositum nutzt. Bei der Frage „Muss ich morgen eine Jacke anziehen?“, antwortet Siri, dass sich 13 Orte mit der Bezeichnung "Muss" in der Nähe befinde.
Es ist falsch zu behaupten, dass Siri gar keine semantische Spracherkennung mitbringt. Die eigentlich herausragende Funktion des Assistenten ist, Schlüsselwörter einer Frage zu erkennen und sie den richtigen Anwendungen auf dem iPhone oder im Web zuzuweisen. Der nächste Schritt in Sachen Semantik ist die Weiterentwicklung von der Wortebene zur Satzebene, das heißt, richtig gut wird die semantische Erkennung nur dann funktionieren, wenn der Assistent nicht nur die einzelnen Wörter erkennt, sondern auch die funktionalen Verbindungen zwischen diesen Wörtern, die sie als eine Einheit (Satz) auftreten lassen.

Neue Einsatzgebiete für Siri

Mit den lokalen Restaurant-Empfehlungen von Yelp, den Filmbeschreibungen von IMDB und den Sportergebnissen der Bundesliga macht Apple Siri zu einem Freizeitberater auf dem iPhone. Der Bereich Lifestyle und lokale Suche ist strategisch gut gewählt. Eine herkömmliche Suchanfrage eingetippt im Browser-Fenster unterscheidet sich von der gesprochenen Suchanfrage vor allem durch die Ausgangssituation. Die gesprochene Suchanfrage wird meist unterwegs getätigt, sprich, der Nutzer ist sich darüber bewusst, dass andere seine Anfrage mithören können. So hat eine Gruppe von Wissenschaftlern bei Google in einer Auswertung der herkömmlichen schriftlichen und gesprochenen Suchbegriffe auf einem Smartphone herausgefunden, dass nur in den Bereichen „lokale Suche“ und „Essen und Trinken“ die mündlichen Anfragen in ihrer Anzahl die schriftlichen übersteigen (Angaben vom Februar 2010).
Die lokale Suche mit Siri könnte Apple noch mit einer Hotel-Suche und der Möglichkeit zu Buchungen vervollständigen. Hier wäre die Kooperation mit HRS denkbar.
Lokale Suche bedeutet auch, dass man nicht immer mit internationalen, meistens US-basierten Diensten auskommen kann. Verfolgt man die aktuellen Bemühungen von Apple, neue Märkte in China und Russland zu erobern, kann man sich die Kooperation mit den dortigen Suchmaschinen, Baidu in China und Yandex in Russland, vorstellen. Die beiden Suchmaschinen sind in den jeweiligen Ländern nicht nur beliebter als Google, sondern bringen eine breite Palette an Diensten oder Online-Datenbanken für Nachrichten, Musik, Filmen, Postleitzahlen, Restaurants mit, ja sogar eigene Karten.
Siri kann derzeit noch kein Russisch oder Chinesisch. Doch die beiden Sprachen gehören zu den Weltsprachen. Erweist sich das iPhone 5 als Verkaufsschlager in China, darf Apple seinen persönlichen Assistenten den lokalen Kunden nicht mehr verweigern.

Unsere Siri-Wunschliste für 2013

  • Siri nach komplexen Berechnungen auf Deutsch fragen: „Rechne 20 Prozent von 50 Euro und teile durch drei“
  • Siri Bücher auf dem iPhone oder iPad vorlesen lassen
  • Wort-Definitionen im lokalen Wörterbuch oder auf Wikipedia nachschlagen
  • iPhone-Einstellungen öffnen und aktiv ändern: „Schalte Flugmodus aus“
  • iOS-Daten durchsuchen: „Finde das neueste Video in der Kamera-App“, „Finde aktuellste Fotos aus München“
  • Verbindung mit Genius sowie Suche im App und iTunes Store: „Empfehle die besten Rock-Alben“
  • Bessere Integration mit der Karten-App: „Zeige Norden“
  • Zusätzliche Option bei der Apple-ID – ein Siri-Profil (Nutzeridentifikation per Stimme, ein Unbefugter kann so die Kontrolle nicht übernehmen)
  • Automatische Spracherkennung: „Spiele ‚Living on a prayer‘ ab“
  • Proaktive Nachrichtenzentrale mit Siri in bestimmten Situationen (beispielsweise wenn Kopfhörer angeschlossen sind)
Kommentare zu diesem Artikel (2 Beiträge)
Kommentar verfassen:
Kommentar verfassen

Login über einen Foren Account





Gastposting

Gastbeiträge müssen erst freigeschaltet werden, bevor Sie auf der Seite erscheinen.





Bestellen Sie "Macwelt Daily-Newsletter" kostenlos
Immer informiert sein:

Mit den kostenlosen Newslettern der Macwelt bleiben Sie auf dem Laufenden!

- Anzeige -
Angebote für Leser
Macwelt für iPad

Für iPad und iPhone: Macwelt Kiosk
Die Macwelt als Digitalausgabe für iPad und iPhone - schon am Freitag vor dem Erstverkaufstag des Heftes im App Store erhältlich.

Macwelt mobil

Macwelt Online-Videothek
Keine Abogebühren oder unnötige Vertragsbindungen. Filme und Games bequem von zu Hause aus leihen.

Handytarif-Check
Mit unserem neuen Smartphone Tarifrechner finden Sie schnell den passenden Handytarif.

3x Macwelt testen!
Ja, ich möchte 3x Macwelt inkl. digitaler Ausgaben für nur 14,99 € (EU: 17,99 €) testen.
Macwelt 09/14
Anrede:
Vorname:
Nachname:
Straße/Nr:
PLZ/Ort:
Land:
E-Mail:
Bestätigen
Nur wenn ich innerhalb von 2 Wochen nach Erhalt der 3. Ausgabe nichts von mir hören lasse, möchte ich Macwelt inkl. der digitalen Ausgaben weiterbeziehen. Pro Jahr zahle ich nur 82,80€ (EU: 94,80 €, CH: 165,60 Sfr). Nach dem Testzeitraum ist der Bezug jederzeit kündbar.
Jetzt kaufen
1661594
Content Management by InterRed