2394627

Siri und der Homepod: Fachartikel erklärt Spracherkennung

04.12.2018 | 14:29 Uhr |

In einem ausführlichen wissenschaftlichen Artikel erklärt Apple die technischen Hintergründe für Siri auf dem Homepod.

Eine große Stärke des Homepod ist die gute Spracherkennung: Selbst bei lauter Musik und Hintergrundgeräuschen werden Befehle von Benutzern gut erkannt. In einem ausführlichen Artikel für Apple Machine Learning Journal , erklären die Apple-Techniker die Hintergründe.

Will der Nutzer per Küche oder Couch aus den Homepod steuern, gibt es bei der Sprachsteuerung viele Störfaktoren: Andere Schallquellen wie ein laufender Fernseher und Haushaltsgeräte, große Entfernung des Sprechers oder andere Sprecher. Die Apple-Teams für Audio Software Engineering und Siri Speech haben deshalb ein aufwendiges System aus mehreren Deep-Learning-Modellen und Lernalgorithmen integriert. Zur Verfügung steht dem Homepod dazu ein System aus sechs Mikrofonen, die permanent aktiv sind und auf dem integrierten A8-Chip (der auch im iPhone 6 verwendet wurde) läuft permanent ein Sprachverarbeitungssystem.

Laut Entwicklern würden sich andere Systeme vor allem auf Techniken zur Klangverbesserung bzw. Dereveberation und Rauschunterdrückung konzentrieren und analysieren dazu den Befehl über den Abgleich von Sprachproben. Das sorge aber für Verzögerungen und wäre für die Aufgabe des Homepod nicht ideal, da die akustischen Bedingungen unvorhersehbar und Anfang und Ende eines Sprachbefehls nicht immer klar sind.

Siri-Befehle trotz lauter Musik

Laute Musik ist ein Problem für die Erkennung eines Siri-Befehls, sind doch die Lautsprecher sehr nah an den Mikrofonen angeordnet und laufende Musik kann weit lauter als das Sprachsignal sein. Siri nutzt deshalb einen so genannten Multichannel Echo Cancellation (MCEC) Algorithmus, der mit Filtern die Wiedergabesignale des Gerätes entfernt. Das ist aber nur begrenzt möglich, weshalb ein Residual Echo Suppressor (RES) weitere Restecho-Signale entfernt. Letzterer basiert auf  einer so genannten Sprachaktivitätsmaske. Dabei handelt es sich um ein Deep Neural Network, das durch reale Echoaufnahmen trainiert wird.

In einem interessanten Beispiel (Figure 7) kann man hören, wie der Siri-Befehl nach der Anwendung beider Technologien gut hörbar wird.

Es gibt aber noch zahlreich weitere Probleme zu lösen: Entfernt sich ein Sprecher von den Mikrofonen, können auch die Raumeigenschaften den Klang verändern, was auch als  Reverberation bezeichnet wird. Siri überwacht deshalb kontinuierlich die Raumeigenschaften des Homepod-Standortes um dies auszugleichen. Ein weiteres Problem sind andere Geräuschquellen wie Haushaltsgeräte oder Außengeräusche. Hier kommt ein so genannter maskenbasierter MCWF zur Verwendung, der auf einem Deep Neural Network basiert. Damit dieser möglichst schnell reagiert, basiert dieser auf Sprach- und Geräuschstatistiken, also Daten aus Sprachaufnahmen und Störquellen. Für das Trennen von mehreren Audioquellen in einzelne Audioströme nutzt Sir dagegen eine Bild Source Separation, die auf der Kenntnis der Sprecher-Stimme und einem Deep Learning-System basiert. Eine weitere „Competing Talker Separation“ kommt ebenfalls zum Einsatz. Für die Auswahl des Streams ist aber der Befehl „Hey Siri“ ausschlaggebend. Wir dieser erkannt, erhält jeder Stream eine Wertung und der Stream mit der höchsten Wertung wird an Siri übergeben.

Die verschiedenen Technologien sind je nach Einsatzbedingung unterschiedlich erfolgreich: So ist etwa die Funktion für die Unterscheidung der einzelnen Streams besonders wichtig, wenn mehrere Sprecher im Raum sind. Wie erfolgreich das System bei unterschiedlichen Situtationen arbeitet, zeigen einige interessante Beispieldateien. Auch die Energieeffizienz soll hervorragend sein, die CPU des Homepod würde gerade mal zu knapp 15 Prozent ausgelastet.

yk[n] = l=1Nx Hk[l]xk[n l] + p=1Ns Gk[p]sk[n p] + vk[n]

Für Profis: Es gibt auch eine Formel, die das ganze Prinzip beschreibt.

Macwelt Marktplatz

0 Kommentare zu diesem Artikel
2394627