Allgemeines 21.962 Themen, 148.137 Beiträge

Gescannten Text in Normal-Text zurückverwandeln/Kleptomania

Christoph (Anonym) / 2 Antworten / Flachansicht Nickles

Hallo Gemeinde,

folgende Situation: Ich möchte möglichst schnell und fehlerfrei Text einscannen und dann zurückverwandeln. 2 Verfahren sind mir eingefallen:

1. Texterkennungssoftware über das Dokument laufen lassen und nachkorrigieren

2. Es gibt da ein Shareware-Programm namens Kleptomania, das angeblich jedweden Text am Bildschirm erkennt (Dateiverzeichnisse, Text in Bildern etc.) und entsprechend zurückverwandelt.

Meine Fragen: Welcher Scanner ist für eine solche Aufgabe am geeignetsten? Hat jemand Erfahrung mit Kleptomania? Gibt es noch bessere Verfahren?

Ich bin für alle Beiträge dankbar.

Gruß
Christoph

bei Antwort benachrichtigen
Neu Christoph (Anonym) „Gescannten Text in Normal-Text zurückverwandeln/Kleptomania“
Optionen

zu 1. Der Scanner muß optisch (!!!, NICHT "interpoliert"!! = geraten) auf mind. 400 oder besser 600 dpi mind. schaffen.
Noch mehr wäre dann nicht mehr sehr vonnutzen, es sei denn, die Schrift ist sehr klein. Als OCR-Programm ist,
sofern die Buchstabenerkennung wichtiger ist als das Beibehalten des Layouts, FineReader die allererste Wahl, andernfalls
OmniPage.

Beim OCRren ist Kontrast das Ein und Alles! Es kann durchaus sein, daß jedes Blatt eine andere Scanner-Einstellung erfordert,
obwohl sie rein vom opt. Eindruck gleich sind. Beginne mit der Einstellung für Strichgrafik zu scannen und OCRre zunächst mal
probehalber. Auch wenn das Ergebnis gut aussieht, spiele noch ein wenig mit dem Kontrast-Knopf. Ich habe festgestellt, daß
der (im Sinne des Wortes) Augenschein sagen sollte: "zu dunkel!", dann arbeiten OCR-Progs häufig am besten.

Geht aber mit "Strichgrafik", versuche es mit "Graustufen". Damit dasselbe Spiel nochmal. Belichtungsautomatiken abschalten,
da die eher für das Einscannen von Bilder, Fotos und Grafiken ausgelegt sind, aber weniger zum OCRen. Geht es immer noch
nicht, scanne mit 24 Bit (oder noch mehr, wenn der Scanner das kann). Ach ja: manschmal geht es erstaunlicherweise bei
Problemfällen besser, wenn man in eine Grafikdatei scannt und die im OCR-Programm einliest. Grafikdateien aber niemals
komprimieren (z.B. LZW bei TIFF), die wenigsten OCRs kommen damit klar.

Da 24 Bit-Scan/Bilder normalwerweise zu groß sind, sollten die stes in eine Datei gescannt werden, diese wird 1a in eine
Graustufendatei umgewandelt und aus der dann gescannt. Dies letzte ist dann schon aber eine Verzweiflungstat.

Noch ein Tip: erstaunlicherweise läßt sich jedes OCR-Ergebnis deitlkich verbessern, wenn man die Seite mit einem ganz
normalen Fotokopierer kopiert und die Kopie verwendet. Aber nicht die Fotokopiersoftware zum Scanner verwenden, damit
funktioniert es seltenst.

Auch wenn das OCR-Programm exzellent gearbeitet hat, kontrolliere ALLES! Lies JEDEN Buchstaben! Insofern ist das
"fehlerfrei" aus Deiner obigen Anforderung fraglich. Warum, meinst Du, kosten echte (!!) professionelle OCR-Systeme
locker mehrere 10 000 Heiermänner?

zu 2. Muß ich leider auch passen. Kenne ich nicht.

bei Antwort benachrichtigen