2343796

Spracherkennung: Eigener iOS-Prozessor für ”Hey, Siri”

17.04.2018 | 11:47 Uhr |

Das iPhone oder iPad selbst soll erkennen, dass nur der berechtigte Nutzer die Spracherkennung per Stimme einschaltet. Apple beschreibt, wie das funktioniert.

In einem sehr ausführlichen Artikel im hauseigenen Machine Learning Journal führt Apple mit dem Titel ” Personalized Hey Siri ” aus, wie sich die Phrase "Hey, Siri" so entwickelt hat, dass sie auf dem iOS-Gerät selbst erkannt wird und zuordnen kann, dass der berechtigte Nutzer allein nach vorherigem Sprachtraining die Sprachfunktion einschalten kann. Die ”Hey, Siri”-Phrase gibt es seit dem iPhone 6 mit iOS 8. Doch damals musste man noch notwendig den Home Button zur Aktivierung benutzen. Erst seit dem iPhone 6S und dem iPad gibt es einen eigenen Prozessor mit niedrigerer Stromversorgung, der aber ständig aktiv ist und zuhört, ob die Phrase ”Hey, Siri” im Umfeld des Geräts fällt. Dann erst wird festgestellt, mithilfe eines im Prozessor integrierten neuronalen Netzwerks, ob es auch der berechtigte Nutzer des Geräts selbst war, der gesprochen hat. Diese persönliche Erkennung der Nutzerstimme gibt es allerdings erst seit iOS 9 .

Dazu nutzt der Prozessor das erste Sprachtraining des Users, lernt aber auch anschließend in verschiedenen Alltagssituationen weiter, die zum Beispiel durch Umgebungsgeräusche wie Verkehr oder im Büro ”gestört” werden. Sodass die Stimme des Nutzers schließlich einwandfrei erkannt werden sollte. Apple verzichtet ganz bewusst darauf, die Sprachanfragen an externe Server zu verschicken, wie es die Konkurrenz zum Beispiel von Amazon mit seinem Echo und Alexa macht, wobei dieses Gerät praktisch jeder Wendung im Raum notwendig lauscht, um sofort aktiv werden zu können, wenn jemand ”Alexa” sagt.

Einige Probleme sind für Apple dabei zu meistern, außer der ”falschen” Stimmen, die "Hey, Siri" sagen, von der richtigen des Nutzers zu unterscheiden. So auch, wenn ähnliche Begriffe oder Wendungen ausgesprochen werden, wie etwa (im englischen Artikel von Apple als Beispiel genannt) “are you serious” oder “in Syria today”, was recht ähnlich klingen kann wie "Hey, Siri". Diese Falsch-Positive (False Alarms, FAs) muss das im Prozessor integrierte neuronale Netzwerk lernen von den korrekten Anfragen zu unterscheiden. Andere Herausforderungen sind dagegen sogenannte Falsch-Negative (”False Rejects” oder FRs), bei denen das Gerät die korrekte Ansprache mit "Hey, Siri" durch den Eigner des iPads oder iPhones nicht erkennt und inaktiv bleibt.

Apple beschreibt im Folgenden ausführlich die technischen Hintergründe und Prozesse, die zu einer besseren Erkennung der Phrase ”Hey, Siri” führen. Interessant ist, dass Nutzer schon vorher angefangen haben, diese Wendung zur Aktivierung benutzen zu wollen, bevor sie offiziell eingeführt war, sie entspricht also gewissermaßen dem natürlichen Bedürfnis der User. Zu beachten ist noch, dass zwar die Aktivierungsphrase ”Hey, Siri” lediglich auf dem iPhone oder iPad verarbeitet wird, die eigentlichen Sprachdiktate dann aber sehr wohl über auch über externe Server laufen. Dabei aber verfolgt Apple sein Konzept der ”Differential Privacy” (”differentiellen Privatheit“), die den persönlichen Informationen, die von einem Apple-Gerät auf deren Servern landen, zufällige Informationen so zufügt, dass sie nicht mehr eindeutig zuzuordnen sein sollen. Etwas mehr zu diesem Hintergrund und auch Siri findet sich auf dieser Apple-Site .

0 Kommentare zu diesem Artikel

Macwelt Marktplatz

2343796