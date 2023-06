KI kann sehr viel Arbeitszeit sparen, ein gutes Beispiel ist das von vielen Journalisten gehasste Transkribieren: Wollen Sie den Text eines Videos als Textdatei haben, etwa um einen langen Podcast, eine Teams-Sitzung oder eine Apple-Keynote protokollieren, kann diese Tipp-Arbeit eine KI übernehmen. Auch Untertitel für ein fremdsprachiges Video kann die App erstellen. Während es eine menschliche Arbeitskraft das 5-bis 10-fache der Videodauer kosten kann, erstellt Aiko dieses Skript per Drag-and-Drop.

Technische Hintergründe

Die automatische Erkennung ist nicht neu, auch iOS und Android beherrschen diese Spracherkennung. Bisher waren diese Dienste aber nur schwer mit vorliegenden Dateien nutzbar, kostenpflichtig oder nur in teuren Tools wie Adobe Premiere enthalten. Nicht jeder möchte außerdem sensible Besprechungen oder Meetings einem Online-Dienst anvertrauen.

Möglich macht dies ein frei verfügbares Spracherkennungssystem von OpenAI, den Entwicklern von ChatGPT. Im Unterschied zu anderen System kann dieses Tool namens Whisper das Gesprochene mit erstaunlicher Genauigkeit erfassen, wurde es doch mit hunderttausenden an Sprachaufnahmen trainiert.

Es unterstützt außerdem neben Englisch über 90 Sprachen. Wollte man das System nutzen, gab es bisher nur Webdienste (etwa den Youtube-Whisperer für Youtube) und Kommandozeilenversionen des Erkennungssystems. Seit Kurzem gibt es mit Freeware wie Aiko aber auch erste Apps, welche die Nutzung stark vereinfachen und komplett auf ihrem eigenen Rechner laufen – ohne Webdienst.

So nutzen Sie Aiko

Die App Aiko von Sindre Sorhus ist über den Mac App Store verfügbar und kostenlos. Nach der Installation muss eine große Programmbibliothek heruntergeladen werden (für Profis: whisper-large-v2) und belegt stolze 3,1 GB Speicherplatz. Die Bedienung selbst ist sehr einfach: Man importiert eine Audio- oder Video-Datei und die App beginnt sofort mit der Analyse. Für ein zweistündiges Video benötigt die KI auf einem Mac Mini M1 etwa ein Drittel der Laufzeit, während der Erfassung wird der erkannte Text gleich in einem Textfenster eingeblendet.

Verschiedene Exportformate stehen zur Wahl, wahlweise mit oder ohne Time-Code. So kann man nicht nur Textdateien erstellen, auf Wunsch generiert das Tool automatisch Untertiteldateien – etwa für Youtube.

Die Sprache der Audiodatei erkennt das Tool automatisch, über die Voreinstellungen der App kann man die Sprache aber auch manuell auswählen. Wichtig für fremdsprachige Videos und Audiodateien: Auf Wunsch wird automatisch ins Englische übersetzt. Für die Übersetzung in die deutsche Sprache muss man aktuell noch auf Tools wie Deep Translate zurückgreifen.

Tipps für die Nutzung

In unserem Test funktionierte das Tool problemlos, auch große mehrstündige Videos und Podcasts wurden problemlos in Text umgewandelt. Der erzeugte Text hat aber noch Schwächen: Aktuell kann die KI keine Sprecher unterscheiden und erzeugt bei Diskussionen oder Interviews so einen wenig ansprechenden Text. Will man nur Untertitel für ein Youtube-Video, ist dies aber kein Problem. Es gibt aber bereits Projekte, die diese Funktion nachliefern wollen.

Ein weiteres Problem: Bei manchen Stellen, etwa bei Sprechpausen, wird ein Satz doppelt aufgezeichnet. Wir empfehlen dies über einen Editor wie BBedit zu korrigieren.

Für die Nachbearbeitung ist der Editor BBedit zu empfehlen. IDG

