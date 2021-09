Halyna Kubiv

Für die einen eine große Hilfe, für anderen eher eine Plage: die Sprachnachrichten per Whatsapp. Der Entwickler will das Problem lösen.

Vergrößern Whatsapp testet ein neues Sprachnachrichten-Feature © WhatsApp

Der Blog "Wabetainfo", der sich auf den kommenden Updates der beliebten Messengers spezialisiert, hat eine interessante Neuerung in einer der Beta-Versionen von Whatsapp für iOS gesehen : Anscheinend wird es eine Möglichkeit geben, die erhaltenen Sprachnachrichten zu transkribieren, also die Audio-Datei mit der Nachricht in den Text umwandeln. "Wabetainfo" bezieht sich explizit auf die iOS-Version der Whatsapp, mit dem Hinweis, es ist noch nicht klar, wann eine entsprechende Option für Android erscheint. Auf dem iPhone wird der Nutzer bei der eingehenden Sprachnachricht eine Option erhalten, diese als Text darzustellen. Dazu fragt die App um Erlaubnis, Spracherkennung unter iOS zu aktivieren. Die Audiodaten werden laut dem Hinweis zur Bearbeitung auf Apple-Server geschickt, einige Schnippsel werden dazu genutzt, Apples Machine-Learning-Schnittstellen für bessere Spracherkennung zu trainieren.

Apples Text to Speech ausgenutzt

Offenbar handelt es sich um die gleiche Technologie, die Diktierfunktion in den Text-Apps unterstützt . Tippt man auf das Mikrofon-Symbol unterhalb der Tastatur, kann man den gewünschten Text diktieren statt eintippen. Die Diktier-Apps sind nichts Neues unter iOS, die berühmteste ist wohl Dragon Anywhere vom Entwickler Nuance, dessen Spracherkennungs-Engine auch mal für Siri als Grundlage diente. Mit Whatsapp wird die erste Messenger-App die Funktion von iOS nutzen, um aufgezeichnete Audio-Dateien als Text darzustellen.

Whatsapp hat bereits in der Vergangenheit einige Optionen nachgeliefert, um die Verwaltung der Sprachnachrichten für seine Empfänger etwas komfortabler zu machen. So gibt es seit Ende Mail eine Möglichkeit , Sprachnachrichten per Whatsapp mit doppelter Geschwindigkeit anzuhören. Die Spracherkennungsfunktion wäre hier ein konsequenter Schritt weiter: Wer möchte, muss sich den Absender nicht minutenlang anhören, sondern in wenigen Sekunden den Text scannen, ob es sich lohnt, weiterzulesen.