Während es bereits einige Apps auch für iOS gibt, die Sprachnachrichten in Text verwandeln können, sieht es so aus, als ob dieses Feature von Whatsapp in nächster Zeit selbst zur Verfügung gestellt wird. Das legen auch aktuellere Meldungen von Wabetainfo (WhatsApp Beta Info) nahe. Wie exakt diese Transkriptionen dann sein werden, ob sie auch wie einige Apps bereits mit künstlicher Intelligenz arbeiten werden, ist aber nicht bekannt. Doch dürften sie gerade den kostenpflichtigen Angeboten das Wasser abgraben. Es sei denn, diese bieten zusätzliche Features wie das von uns getestete Alva.
Diese App beruft sich explizit auf den Einsatz von KI (ohne genauer zu benennen, welche). Das bisherige Alleinstellungsmerkmal ist aber, dass sie auch aus längeren Texten sehr praktische Zusammenfassungen in Form von ”Spiegelstrichen” herstellen kann. Ohnehin werden konvertierte Texte auch jetzt schon in Textblöcken zusammengestellt, sodass man einen schnelleren Überblick hat. Doch zusätzlich ist es möglich, mithilfe der KI die Highlights in einer intelligenten Zusammenstellung präsentiert zu bekommen.
Apps im Vergleich
Um den prinzipiellen Nutzen der Apps herauszufinden, haben wir eine 47-sekündige Sprachnachricht mit weitgehend sehr guter Verständlichkeit aus Whatsapp mit jeder der einzelnen Apps getestet und kamen zu dem Ergebnis, dass das kostenlose Whisperboard am schnellsten ist, ebenfalls dafür den Einsatz von KI beansprucht, das Ergebnis aber durchwachsen, d.h. im Vergleich weniger genau war. Alva und Textify benötigen beide etwas länger, jedoch auch unter 10 Sekunden. Das Ergebnis von Textify (kostet 3,89 Euro) war besser als bei Whisperbord, außerdem bietet diese App eine Wortfeldanalyse. Ebenfalls hervorragende Transkriptionen finden wir bei Alva, das im Folgenden auch im Mittelpunkt steht. Es zeigt auch in Prozentzahlen seine “Confidence” (Vertrauen) an, dass man die Sprachnachricht korrekt erkennen kann.
Alva ermöglicht, darin durchaus vergleichbar anderen Apps, bei der Sichtung des Ergebnisses die Sprachnachricht parallel anzuhören und so Fehler leichter zu erkennen. Editieren und insofern verbessern, bevor man ihn zum Beispiel weiterverwendet, lässt sich der Text leider nicht.
Optimale Resultate auch bei langen Texten
Doch das eigentliche Highlight ist, per Tap auf das entsprechende Symbol unmittelbar eine Hervorhebung der wichtigsten Ergebnisse der Sprachnachricht in sogenannten Spiegelstrichen zu erhalten. Bei kurzen Sprachnachrichten scheint das noch nicht sehr notwendig zu sein. Interessant wird es aber etwa bei längeren Passagen wie einem Artikel, den wir versuchsweise aus der Macwelt-Website selbst aufsprechen.

Alva konvertiert Sprachnachrichten zu einem Text
Thomas Hartmann
Mit MP3 kann die App – jetzt im Gegensatz zu Textify und Whisperbord, die das durchaus vermögen – nichts anfangen, sie benötigt das Format m4a, in dem auch allgemein Sprachnachrichten codiert sind. Nach einer Konvertierung in diesem Fall auf dem Mac mit Audacity in iCloud-Drive, auf das man auch vom iPhone aus leicht zugreifen kann, konvertiert Alva den Ton wie eine nur sehr lange Sprachnachricht recht flott in Text, um dann die Möglichkeit zur Zusammenfassung zu bieten, die tatsächlich sehr gelungen ist und die wichtigsten Inhalte übersichtlich auf den Punkt bringt.

Sprachnachrichten werden über Weiterleiten/Teilen zu Alva gebracht
Thomas Hartmann
Schade nur, dass man nicht direkt mit MP3 arbeiten kann, dann hätte man ein fast perfektes Programm, um allgemein längere gesprochene Texte in diesem Format zu konvertieren. Immerhin, nimmt man zum Beispiel Text mit einer App wie Sprachmemos von Apple auf, lässt sich das direkt verwenden. Allgemein unterstützt diese App wie ihre Mitbewerber nicht nur Whatsapp, sondern auch beispielsweise Signal oder Threema und prinzipiell alle Programme, die es erlauben, Sprachnachrichten zu teilen – Apples Nachrichten-App/iMessage muss da leider passen.

Der konvertierte Text wird uns in Echtzeit angezeigt
Thomas Hartmann
Die Entwickler wollen sich aber um eine Lösung bemühen, wie sie uns mitteilten. Im App Store wird auch mit der Konvertierung von Voicemails geworben. Das klappt zumindest in der Apple-Telefon-App ebenfalls über den ”Teilen”-Dialog, nicht aber beispielsweise mit der Telekom-App Voicemail (”unsupported file”).

Ein absolutes Highlight ist die Zusammenfassung von Texten wir hier aus der eigenen Vorlage
Thomas Hartmann
Vorteil Alva
Nimmt man alle Aspekte zusammen, ist Alva zunächst nicht die schnellste und auch nicht die umfangreichste App, was allgemein die Konvertierung von Sprache zu Text betrifft. Doch mit Sprachnachrichten geht sie einwandfrei und flott genug um, zeigt praktisch in Echtzeit die Übersetzung von Sprache in Worte direkt unter der Nachricht sowie in der App in Textblöcke aufgeteilt. Und sie bietet vor allem das ”Killer-Feature”, auf Anforderung sofort eine Zusammenfassung der wichtigsten Aspekte einer Nachricht anzuzeigen – was gerade bei längeren Nachrichten oder anderen Sounddateien mit Sprache sehr hilfreich ist.
Dafür ist die App recht günstig – man zahlt einmalig 2,99 Euro, verfügbar ist sie im App Store, vorausgesetzt wird mindestens iOS 15.2.

Übersichtlich werden konvertierte Sprachnachrichten aufgelistet und sind für die Verarbeitung verfügbar
Thomas Hartmann

Den Namen unserer Redakteurin schlecht erkannt, aber den Rest ziemlich gut
Thomas Hartmann

Die Zusammenfassung aus dem Text per KI ist aussagekräftig
Thomas Hartmann
Fazit und Empfehlung
Bedenkt man das riesige Potenzial, dass diese App durch die automatischen, hervorragenden Zusammenfassungen und Highlights bietet, wäre zu wünschen, dass sie schnell auf andere Formate wie MP3 direkt anwendbar ist. Aber auch schon so ist sie für längere Sprachnachrichten ein perfektes Tool, um rasch einen Überblick zu der Mitteilung zu bekommen. Anwendungsbeispiele sind etwa in einer Vorlesung, bei einem Konzert oder im Wartezimmer einer Praxis, wenn es einfach schwierig bis unmöglich ist, eine Sprachnachricht laut zu stellen oder man allgemein keine Lust hat, sich diese anzuhören. Alva hilft dann flott und überzeugend, diese einfach als Text lesen zu können und eine pointierte Zusammenfassung zu erhalten.