902870

Texterfassung mit Scanner

26.06.2001 | 00:00 Uhr |

Aufbereiten von Scans für bessere Texterfassung

Wer einen Scanner mit OCR-Software besitzt, bekommt gelegentlich von Freunden und Bekannten die Aufgabe, ein gescanntes Dokument schnell mal durch die Texterkennungssoftware laufen zu lassen, um eine Textdatei zu erzeugen. Ist das Dokument aber ungünstig gescannt, hat der Operator damit gelegentlich fast ebensoviel Arbeit, wie sie das Abtippen des Textes erfordern würde. So kommt es vor, dass die OCR-Software das Dokument zwar bearbeitet, am Ende jedoch eine Datei ausgibt, die keinen Text oder nur einige Zeichen enthält. Liegt die Originaldatei bereits im Strich-Modus vor, ist nur noch wenig zu retten. Liegt die ursprüngliche Datei jedoch als Graustufenbild vor, gibt es noch einige Tricks, das Dokument in Textform zu bringen: Je höher der Kontrast der Vorlage ist, umso besser erkennt die OCR-Software den Text. Man behilft sich, indem man den Kontrast der ursprünglichen Datei in Photoshop erhöht. Dazu öffnet man das Dokument, wählt im "Bild"-Menü "Einstellen > Gradationskurven" und zieht die Kurve steiler. Dabei gilt: Je steiler die Kurve, desto höher der Kontrast. Anhand der Vorschau kann man das Ergebnis in etwa verfolgen, dabei sollte man die Bildansicht groß genug einstellen und darauf achten, dass die Buchstaben nicht "ausreißen", sondern durchgängige Linien haben. Damit die OCR-Software das Dokument erkennt, muss man es in den Strich-Modus (auch: Bitmap-Modus) umwandeln, der nur weiß und schwarz darstellt. Deshalb tut sie sich umso leichter, je mehr Graustufen man vorher wegrechnet. Beim Umwandeln in den Bitmap-Modus gilt es zudem zu beachten, dass die OCR-Software am Besten mit runden Auflösungszahlen umgehen kann, also mit 200, 300 oder 400 dpi. Hat man die Gradationskurve wie beschrieben angepasst, ist es zudem günstig, in der Dialogbox, in der man den Modus ändert, die Umwandlungsmethode auf "Schwellenwert 50%" zu stellen, da die Software auf diesem Weg für alle Punkte bis zu einem Grauanteil von 50% schwarz setzt, für alle Punkte, die unter diesem Wert liegen, weiß. So trennt man die Schrift sauber vom weißen Hintergrund und die OCR-Software erkennt den Text besser. dc

0 Kommentare zu diesem Artikel
902870